論文の概要: How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior
- arxiv url: http://arxiv.org/abs/2404.10198v1
- Date: Tue, 16 Apr 2024 00:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:31:57.303815
- Title: How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior
- Title(参考訳): RAGモデルはどれほど忠実か? : RAGとLLMの内部的事前の綱引きの定量化
- Authors: Kevin Wu, Eric Wu, James Zou,
- Abstract要約: 我々は,参照文書の有無にかかわらず,データセット間の質問応答能力について,大規模言語モデル(LLM)をテストする。
予想通り、正しい検索された情報を提供することで、ほとんどのモデルミスが解決される。
しかし、参照文書が間違った値のレベルが増加すると、LLMは誤りで修正された情報を引用する傾向にある。
- 参考スコア(独自算出の注目度): 22.89240200094172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval augmented generation (RAG) is often used to fix hallucinations and provide up-to-date knowledge for large language models (LLMs). However, in cases when the LLM alone incorrectly answers a question, does providing the correct retrieved content always fix the error? Conversely, in cases where the retrieved content is incorrect, does the LLM know to ignore the wrong information, or does it recapitulate the error? To answer these questions, we systematically analyze the tug-of-war between a LLM's internal knowledge (i.e. its prior) and the retrieved information in settings when they disagree. We test GPT-4 and other LLMs on question-answering abilities across datasets with and without reference documents. As expected, providing the correct retrieved information fixes most model mistakes (94% accuracy). However, when the reference document is perturbed with increasing levels of wrong values, the LLM is more likely to recite the incorrect, modified information when its internal prior is weaker but is more resistant when its prior is stronger. Similarly, we also find that the more the modified information deviates from the model's prior, the less likely the model is to prefer it. These results highlight an underlying tension between a model's prior knowledge and the information presented in reference documents.
- Abstract(参考訳): 検索拡張生成(RAG)は、幻覚の修正や、大規模言語モデル(LLM)の最新の知識の提供にしばしば使用される。
しかし、LLM単独で誤った質問に答える場合、正しい検索されたコンテンツを提供することは、常にエラーを修正しますか?
逆に、検索されたコンテンツが正しくない場合、LLMは間違った情報を無視することを知っていますか、あるいはエラーを再カプセル化するのでしょうか?
これらの疑問に答えるために, LLMの内部知識(すなわち, 先行知識)と, 一致しない場合の検索情報との間の綱引きを系統的に解析する。
GPT-4 や他の LLM を,参照文書と非参照文書を用いて,データセット間の質問応答能力について検証した。
予想通り、正しい検索された情報を提供することで、ほとんどのモデルミス(94%の精度)が解決される。
しかし、基準文書が誤った値のレベルが増加すると、LCMは内部の事前が弱いが、先行が強い場合にはより抵抗性が高いときに、誤りで修正された情報を引用する傾向にある。
同様に、修正された情報がモデルの以前の情報から逸脱するほど、モデルがそれを好む可能性が低いこともわかりました。
これらの結果は、モデルの事前知識と参照文書に提示される情報との間の緊張関係を浮き彫りにする。
関連論文リスト
- Sufficient Context: A New Lens on Retrieval Augmented Generation Systems [19.238772793096473]
LLMをコンテキストで拡張すると、多くのアプリケーションのパフォーマンスが向上する。
我々は、クエリに答える十分な情報を持つインスタンスを分類すると共に、十分なコンテキストという新しい概念を開発する。
LLMはコンテキストが十分である場合,クエリの応答に優れるが,コンテキストが不適切でない場合,しばしば不適切な回答を出力する。
論文 参考訳(メタデータ) (2024-11-09T02:13:14Z) - LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。
実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-10-14T23:43:33Z) - Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。
RAITは、初期LCMの応答の正しさに基づいてトレーニングサンプルを変更する。
この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。
論文 参考訳(メタデータ) (2024-10-09T14:12:51Z) - Understanding Knowledge Drift in LLMs through Misinformation [11.605377799885238]
大規模言語モデル(LLM)は多くのアプリケーションに革命をもたらしました。
我々は,QnAシナリオで誤情報に遭遇した場合に,現状のLCMの事実的不正確性に対する感受性を解析する。
実験の結果,LLMの不確実性が56.6%まで増加することが判明した。
論文 参考訳(メタデータ) (2024-09-11T08:11:16Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge
Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。
我々は,LSMの入力において,その知識を直接拡張することを提案する。
我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文 参考訳(メタデータ) (2023-06-07T04:15:21Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。