論文の概要: Decoding Intelligence: A Framework for Certifying Knowledge Comprehension in LLMs
- arxiv url: http://arxiv.org/abs/2402.15929v2
- Date: Mon, 07 Oct 2024 15:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:46.540450
- Title: Decoding Intelligence: A Framework for Certifying Knowledge Comprehension in LLMs
- Title(参考訳): デコードインテリジェンス:LLMにおける知識理解の認定のためのフレームワーク
- Authors: Isha Chaudhary, Vedaant V. Jain, Gagandeep Singh,
- Abstract要約: 本稿では,大規模言語モデルにおける知識理解を形式的確率論的保証で証明する最初のフレームワークを提案する。
我々は知識理解の分布を正確に表現する新しい仕様を設計し、認定し、知識グラフを活用する。
モデルのサイズを拡大することで知識理解能力が大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 3.6293956720749425
- License:
- Abstract: Knowledge comprehension capability is an important aspect of human intelligence. As Large Language Models (LLMs) are being envisioned as superhuman agents, it is crucial for them to be proficient at knowledge comprehension. However, existing benchmarking studies do not provide consistent, generalizable, and formal guarantees on the knowledge comprehension capabilities of LLMs. In this work, we propose the first framework to certify knowledge comprehension in LLMs with formal probabilistic guarantees. Our certificates are quantitative -- they consist of high-confidence, tight bounds on the probability that a target LLM gives the correct answer on any knowledge comprehension prompt sampled from a distribution. We design and certify novel specifications that precisely represent distributions of knowledge comprehension prompts leveraging knowledge graphs. We certify SOTA LLMs for specifications over the Wikidata5m knowledge graph. We find that the knowledge comprehension capability improves significantly with scaling the size of the models.
- Abstract(参考訳): 知識理解能力は人間の知性の重要な側面である。
大規模言語モデル(LLM)は超人的エージェントとして想定されているため、知識理解に熟練することが重要である。
しかし、既存のベンチマーク研究はLLMの知識理解能力について一貫した、一般化可能な、正式な保証を提供していない。
本研究では,LLMにおける知識理解を形式的確率論的保証で証明する最初の枠組みを提案する。
我々の証明は量的であり、それらは高信頼で厳密な境界から成り、ターゲットのLSMが分布からサンプリングされた任意の知識理解に対して正しい答えを与える確率に基づいている。
我々は知識理解の分布を正確に表現する新しい仕様を設計し、認定し、知識グラフを活用する。
Wikidata5mナレッジグラフ上で,仕様書のSOTA LLMを認証する。
モデルのサイズを拡大することで知識理解能力が大幅に向上することがわかった。
関連論文リスト
- Large Language Models as Reliable Knowledge Bases? [60.25969380388974]
大きな言語モデル(LLM)は潜在的な知識ベース(KB)と見なすことができる。
本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性に焦点をあてる。
ICLや微調整のような戦略は、LLMをより良くKBにするには失敗している。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations [22.011216436252845]
本稿では,大言語モデルの知識能力の詳細な探索を行うツールキットPertEvalを提案する。
PertEvalは、静的ベンチマークからオンザフライテストサンプルを生成するために、人間のような再配置技術を使用している。
PertEval は,どのベンチマークと併用しても LLM の真の知識能力を明らかにする重要なツールとして機能することを示す。
論文 参考訳(メタデータ) (2024-05-30T06:38:32Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Investigating the Factual Knowledge Boundary of Large Language Models
with Retrieval Augmentation [91.30946119104111]
大規模言語モデル(LLM)は,質問に応答する能力に対して,波及しない自信を持っていることを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
また, LLM は, 回答の定式化に際し, 提案した検索結果に依存する傾向が認められた。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。