論文の概要: Certifying Knowledge Comprehension in LLMs
- arxiv url: http://arxiv.org/abs/2402.15929v3
- Date: Mon, 21 Apr 2025 23:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 05:14:55.490769
- Title: Certifying Knowledge Comprehension in LLMs
- Title(参考訳): LLMにおける知識理解の認定
- Authors: Isha Chaudhary, Vedaant V. Jain, Gagandeep Singh,
- Abstract要約: 我々は,Large Language Models(LLMs)における知識理解のための最初の仕様と認定フレームワークを紹介する。
固定されたデータセットの代わりに、自然ノイズを伴う知識理解の確率分布を数学的に禁止的に表す新しい仕様を設計する。
我々は,SOTA LLMを高精度医療と一般質問応答の2つの領域で認証する枠組みを適用した。
- 参考スコア(独自算出の注目度): 3.6293956720749425
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in safety-critical systems where they provide answers based on in-context information derived from knowledge bases. As LLMs are increasingly envisioned as superhuman agents, their proficiency in knowledge comprehension-extracting relevant information and reasoning over it to answer questions, a key facet of human intelligence-becomes crucial. However, existing evaluations of LLMs on knowledge comprehension are typically conducted on small test sets, but these datasets represent only a tiny fraction of the vast number of possible queries. Simple empirical evaluations on these limited test sets raises concerns about the reliability and generalizability of the results. In this work, we introduce the first specification and certification framework for knowledge comprehension in LLMs, providing formal probabilistic guarantees for reliability. Instead of a fixed dataset, we design novel specifications that mathematically represent prohibitively large probability distributions of knowledge comprehension prompts with natural noise, using knowledge graphs. From these specifications, we generate quantitative certificates that offer high-confidence, tight bounds on the probability that a given LLM correctly answers any question drawn from the specification distribution. We apply our framework to certify SOTA LLMs in two domains: precision medicine and general question-answering. Our results reveal previously unrecognized vulnerabilities in SOTA LLMs due to natural noise in the prompts. Additionally, we establish performance hierarchies with formal guarantees among the SOTA LLMs, particularly in the context of precision medicine question-answering.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識ベースから派生したコンテキスト内情報に基づいて回答を提供する安全クリティカルなシステムにますます導入されている。
LLMはますますスーパーヒューマンエージェントとして想定されているので、知識を理解し、関連する情報を抽出し、質問に答えるためにそれを推論する能力は、人間の知性にとって重要な側面である。
しかしながら、知識理解に関するLCMの既存の評価は、典型的には小さなテストセットで行われているが、これらのデータセットは膨大な数のクエリのごく一部にすぎない。
これらの制限されたテストセットに対する単純な経験的評価は、結果の信頼性と一般化可能性に関する懸念を提起する。
本稿では,LLMにおける知識理解のための最初の仕様および認定フレームワークを紹介し,信頼性に関する正式な確率的保証を提供する。
固定されたデータセットの代わりに、知識グラフを用いて、知識理解の確率分布を数学的に禁止的に大きめに表現する新しい仕様を設計する。
これらの仕様から、ある LLM が仕様分布から引き出された任意の疑問に正しく答える確率に基づいて、高い信頼度、厳密な境界を提供する量的証明を生成する。
我々は,SOTA LLMを高精度医療と一般質問応答の2つの領域で認証する枠組みを適用した。
以上の結果から,SOTA LLMの自然騒音による未認識の脆弱性が明らかとなった。
さらに我々は,SOTA LLMの形式的保証,特に精密医療質問応答の文脈において,パフォーマンス階層を構築した。
関連論文リスト
- UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models [41.67393607081513]
大きな言語モデル(LLM)は、しばしば、彼らが持っている事実の知識を正確に表現するのに苦労する。
知識境界を表現するために不確実性推定を利用するUAlignフレームワークを提案する。
提案したUAlign は LLM の能力を大幅に向上させ,既知の疑問に自信を持って答えることができることを示す。
論文 参考訳(メタデータ) (2024-12-16T14:14:27Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - What's in an embedding? Would a rose by any embedding smell as sweet? [0.0]
大規模言語モデル(LLM)は、真の「理解」と知識を「理解」する能力に欠けるとしてしばしば批判される。
我々は, LLM が「幾何学的」な経験的「下地」を発達させ, NLP の様々な応用に適していると考えられることを示唆する。
これらの制限を克服するために、LLMはシンボリックAI要素を含む知識の「代数的」表現と統合されるべきである。
論文 参考訳(メタデータ) (2024-06-11T01:10:40Z) - PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations [22.011216436252845]
本稿では,大言語モデルの知識能力を探索するツールキットPertEvalを紹介する。
PertEvalは、静的ベンチマークからオンザフライテストサンプルを生成するために、人間のような再配置技術を採用している。
我々の発見は、より堅牢で真に理解できるLSMを前進させる洞察を与えてくれる。
論文 参考訳(メタデータ) (2024-05-30T06:38:32Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Can Language Models Act as Knowledge Bases at Scale? [24.99538360485476]
大規模言語モデル(LLM)は、複雑なクエリに対する応答の理解と生成に顕著な習熟性を示している。
本研究は,LLMがWikidataなどの最新の知識ベース(KB)に匹敵する大規模知識を効果的に保存し,リコールし,理性を持つことができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-02-22T04:20:14Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z) - KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large Language Models [39.554274096542244]
KGQuizは、大規模言語モデルの知識一般化能力を調べるための知識集約型ベンチマークである。
我々は,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLCMを評価した。
我々は、KGQuizをテストベッドとして想定し、ドメインやタスクフォーマット間のパフォーマンスの微妙な変化を分析する。
論文 参考訳(メタデータ) (2023-10-15T04:00:36Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z) - Knowledge of Knowledge: Exploring Known-Unknowns Uncertainty with Large Language Models [44.117620571329596]
我々は,不確定な回答がないことによる不確実性の高さを特徴とする,未知の疑問に対処することに注力する。
研究を容易にするために,Known-Unknown Questions (KUQ) を用いた新しいデータセットを収集した。
本稿では、このデータセットを用いて微調整したオープンソースのLLMの性能について検討し、未知のクエリと未知のクエリを区別する。
論文 参考訳(メタデータ) (2023-05-23T05:59:21Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - KMIR: A Benchmark for Evaluating Knowledge Memorization, Identification
and Reasoning Abilities of Language Models [28.82149012250609]
我々はKMIR(Knowledge Memorization, Identification and Reasoning test)というベンチマークを提案する。
KMIRは、一般的な知識、ドメイン固有の知識、常識を含む3種類の知識をカバーし、よく設計された184,348の質問を提供する。
KMIR上での様々な代表的な事前学習言語モデルによる予備実験は、多くの興味深い現象を示す。
論文 参考訳(メタデータ) (2022-02-28T03:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。