論文の概要: ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence
- arxiv url: http://arxiv.org/abs/2404.10198v2
- Date: Mon, 10 Jun 2024 04:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:24:28.962527
- Title: ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence
- Title(参考訳): ClashEval: LLMの内部的事前証拠と外部証拠の間の綱引きの定量化
- Authors: Kevin Wu, Eric Wu, James Zou,
- Abstract要約: 1200以上の質問のデータセット上で,上位6つの大規模言語モデル (LLM) をベンチマークした。
LLMは不正検索されたコンテンツの60%以上を利用できないことが判明した。
この発見を利用して、検索されたコンテンツに矛盾がある場合のモデル精度を向上させるための簡単な手法を実証する。
- 参考スコア(独自算出の注目度): 22.89240200094172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval augmented generation (RAG) is frequently used to mitigate hallucinations and provide up-to-date knowledge for large language models (LLMs). However, given that document retrieval is an imprecise task and sometimes results in erroneous or even harmful content being presented in context, this raises the question of how LLMs handle retrieved information: If the provided content is incorrect, does the model know to ignore it, or does it recapitulate the error? Conversely, when the model's initial response is incorrect, does it always know to use the retrieved information to correct itself, or does it insist on its wrong prior response? To answer this, we curate a dataset of over 1200 questions across six domains (e.g., drug dosages, Olympic records, locations) along with content relevant to answering each question. We further apply precise perturbations to the answers in the content that range from subtle to blatant errors. We benchmark six top-performing LLMs, including GPT-4o, on this dataset and find that LLMs are susceptible to adopting incorrect retrieved content, overriding their own correct prior knowledge over 60% of the time. However, the more unrealistic the retrieved content is (i.e. more deviated from truth), the less likely the model is to adopt it. Also, the less confident a model is in its initial response (via measuring token probabilities), the more likely it is to adopt the information in the retrieved content. We exploit this finding and demonstrate simple methods for improving model accuracy where there is conflicting retrieved content. Our results highlight a difficult task and benchmark for LLMs -- namely, their ability to correctly discern when it is wrong in light of correct retrieved content and to reject cases when the provided content is incorrect.
- Abstract(参考訳): Retrieval augmented generation(RAG)は、幻覚を緩和し、大規模言語モデル(LLM)の最新の知識を提供するために頻繁に使用される。
しかし、ドキュメント検索が不正確なタスクであり、時にコンテキスト内で誤ったあるいは有害なコンテンツが提示されることを考えると、LLMがどのようにして取得した情報を処理しているのかという疑問が提起される: 提供されたコンテンツが間違っていれば、モデルはそれを無視するか、あるいはエラーを再カプセル化するのか?
逆に、モデルの初期応答が正しくない場合、取得した情報を使って自身を修正することを常に知っているのか、それとも、間違った事前応答を主張しているのか?
これに対応するために、6つのドメイン(例えば、薬物摂取量、オリンピック記録、場所)にわたる1200以上の質問のデータセットを、各質問に対する回答に関連するコンテンツとともにキュレートする。
さらに、微妙な誤りから緩やかな誤りまで幅広い内容の回答に正確な摂動を適用した。
GPT-4oを含む6つのトップパフォーマンスLCMをこのデータセット上でベンチマークし、LLMが不正検索されたコンテンツを採用する可能性があり、その60%以上を自分自身の正しい事前知識がオーバーライドされていることを発見した。
しかし、検索された内容がより非現実的である(すなわち、真実から逸脱した)ほど、モデルがそれを採用する可能性は低い。
また、モデルの信頼性が低いほど(トークン確率の測定による)、検索したコンテンツにその情報を採用する可能性が高くなる。
この発見を利用して、検索されたコンテンツに矛盾がある場合のモデル精度を向上させるための簡単な手法を実証する。
我々の結果は、LLMの難しいタスクとベンチマーク、すなわち、正しい検索されたコンテンツが間違っている場合に正しく識別し、提供されたコンテンツが正しくない場合にケースを拒否する能力を強調している。
関連論文リスト
- Sufficient Context: A New Lens on Retrieval Augmented Generation Systems [19.238772793096473]
LLMをコンテキストで拡張すると、多くのアプリケーションのパフォーマンスが向上する。
我々は、クエリに答える十分な情報を持つインスタンスを分類すると共に、十分なコンテキストという新しい概念を開発する。
LLMはコンテキストが十分である場合,クエリの応答に優れるが,コンテキストが不適切でない場合,しばしば不適切な回答を出力する。
論文 参考訳(メタデータ) (2024-11-09T02:13:14Z) - LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。
実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-10-14T23:43:33Z) - Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。
RAITは、初期LCMの応答の正しさに基づいてトレーニングサンプルを変更する。
この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。
論文 参考訳(メタデータ) (2024-10-09T14:12:51Z) - Understanding Knowledge Drift in LLMs through Misinformation [11.605377799885238]
大規模言語モデル(LLM)は多くのアプリケーションに革命をもたらしました。
我々は,QnAシナリオで誤情報に遭遇した場合に,現状のLCMの事実的不正確性に対する感受性を解析する。
実験の結果,LLMの不確実性が56.6%まで増加することが判明した。
論文 参考訳(メタデータ) (2024-09-11T08:11:16Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge
Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。
我々は,LSMの入力において,その知識を直接拡張することを提案する。
我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文 参考訳(メタデータ) (2023-06-07T04:15:21Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。