論文の概要: How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior
- arxiv url: http://arxiv.org/abs/2404.10198v1
- Date: Tue, 16 Apr 2024 00:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:31:57.303815
- Title: How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior
- Title(参考訳): RAGモデルはどれほど忠実か? : RAGとLLMの内部的事前の綱引きの定量化
- Authors: Kevin Wu, Eric Wu, James Zou,
- Abstract要約: 我々は,参照文書の有無にかかわらず,データセット間の質問応答能力について,大規模言語モデル(LLM)をテストする。
予想通り、正しい検索された情報を提供することで、ほとんどのモデルミスが解決される。
しかし、参照文書が間違った値のレベルが増加すると、LLMは誤りで修正された情報を引用する傾向にある。
- 参考スコア(独自算出の注目度): 22.89240200094172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval augmented generation (RAG) is often used to fix hallucinations and provide up-to-date knowledge for large language models (LLMs). However, in cases when the LLM alone incorrectly answers a question, does providing the correct retrieved content always fix the error? Conversely, in cases where the retrieved content is incorrect, does the LLM know to ignore the wrong information, or does it recapitulate the error? To answer these questions, we systematically analyze the tug-of-war between a LLM's internal knowledge (i.e. its prior) and the retrieved information in settings when they disagree. We test GPT-4 and other LLMs on question-answering abilities across datasets with and without reference documents. As expected, providing the correct retrieved information fixes most model mistakes (94% accuracy). However, when the reference document is perturbed with increasing levels of wrong values, the LLM is more likely to recite the incorrect, modified information when its internal prior is weaker but is more resistant when its prior is stronger. Similarly, we also find that the more the modified information deviates from the model's prior, the less likely the model is to prefer it. These results highlight an underlying tension between a model's prior knowledge and the information presented in reference documents.
- Abstract(参考訳): 検索拡張生成(RAG)は、幻覚の修正や、大規模言語モデル(LLM)の最新の知識の提供にしばしば使用される。
しかし、LLM単独で誤った質問に答える場合、正しい検索されたコンテンツを提供することは、常にエラーを修正しますか?
逆に、検索されたコンテンツが正しくない場合、LLMは間違った情報を無視することを知っていますか、あるいはエラーを再カプセル化するのでしょうか?
これらの疑問に答えるために, LLMの内部知識(すなわち, 先行知識)と, 一致しない場合の検索情報との間の綱引きを系統的に解析する。
GPT-4 や他の LLM を,参照文書と非参照文書を用いて,データセット間の質問応答能力について検証した。
予想通り、正しい検索された情報を提供することで、ほとんどのモデルミス(94%の精度)が解決される。
しかし、基準文書が誤った値のレベルが増加すると、LCMは内部の事前が弱いが、先行が強い場合にはより抵抗性が高いときに、誤りで修正された情報を引用する傾向にある。
同様に、修正された情報がモデルの以前の情報から逸脱するほど、モデルがそれを好む可能性が低いこともわかりました。
これらの結果は、モデルの事前知識と参照文書に提示される情報との間の緊張関係を浮き彫りにする。
関連論文リスト
- LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。
システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:45:55Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge
Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。
我々は,LSMの入力において,その知識を直接拡張することを提案する。
我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文 参考訳(メタデータ) (2023-06-07T04:15:21Z) - Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large
Language Models in Knowledge Conflicts [21.34852490049787]
本稿では,大規模言語モデル(LLM)の知識衝突時の行動に関する包括的かつ制御された最初の調査について述べる。
LLMは, パラメトリックメモリと矛盾しても, 外部の証拠に対して高い受容性を有することが判明した。
一方、LCMは、外部証拠がパラメトリックメモリと整合した情報を含む場合、強い確証バイアスを示す。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。