論文の概要: Investigating Context-Faithfulness in Large Language Models: The Roles of Memory Strength and Evidence Style
- arxiv url: http://arxiv.org/abs/2409.10955v1
- Date: Tue, 17 Sep 2024 07:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 17:38:43.618525
- Title: Investigating Context-Faithfulness in Large Language Models: The Roles of Memory Strength and Evidence Style
- Title(参考訳): 大規模言語モデルにおける文脈指向性の調査:記憶力とエビデンススタイルの役割
- Authors: Yuepei Li, Kang Zhou, Qiao Qiao, Bach Nguyen, Qing Wang, Qi Li,
- Abstract要約: 記憶力とエビデンス提示が外的エビデンスに対するLarge Language Modelsの受容性に及ぼす影響について検討する。
メモリの強度が高い問題では、特に GPT-4 のようなより大きな LLM では LLM は内部メモリに依存しやすい。
- 参考スコア(独自算出の注目度): 13.968658352075334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) improves Large Language Models (LLMs) by incorporating external information into the response generation process. However, how context-faithful LLMs are and what factors influence LLMs' context-faithfulness remain largely unexplored. In this study, we investigate the impact of memory strength and evidence presentation on LLMs' receptiveness to external evidence. We introduce a method to quantify the memory strength of LLMs by measuring the divergence in LLMs' responses to different paraphrases of the same question, which is not considered by previous works. We also generate evidence in various styles to evaluate the effects of evidence in different styles. Two datasets are used for evaluation: Natural Questions (NQ) with popular questions and popQA featuring long-tail questions. Our results show that for questions with high memory strength, LLMs are more likely to rely on internal memory, particularly for larger LLMs such as GPT-4. On the other hand, presenting paraphrased evidence significantly increases LLMs' receptiveness compared to simple repetition or adding details.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部情報を応答生成プロセスに組み込むことで、Large Language Models (LLM)を改善する。
しかし、LLMがいかに文脈忠実であるか、どの要因がLLMの文脈忠実性に影響を与えるのかは未解明のままである。
本研究では,記憶力とエビデンス提示が外的エビデンスに対するLLMの受容性に及ぼす影響について検討した。
本研究では,LLMの異なるパラフレーズに対する応答のばらつきを測定することで,LLMの記憶強度を定量化する手法を提案する。
また,様々なスタイルのエビデンスを評価するために,様々なスタイルのエビデンスも生成する。
評価には2つのデータセットが使用される。一般的な質問を持つNatural Questions (NQ)と、長い質問を特徴とするPopQAだ。
以上の結果から,LPMはメモリ強度が高い場合,特に GPT-4 などのより大きな LLM に対して,内部記憶に依存する傾向が示唆された。
一方、言い換えられた証拠を示すことは、単純な反復や詳細の追加に比べてLLMの受容性を著しく向上させる。
関連論文リスト
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - I Learn Better If You Speak My Language: Understanding the Superior Performance of Fine-Tuning Large Language Models with LLM-Generated Responses [23.053791342294268]
LLMによって生成された応答で大きな言語モデル(LLM)を微調整すると、特に推論タスクにおいて、人間によって生成された応答を使用するよりも良い結果が得られることが多い。
LLM生成応答によるトレーニングは、パフォーマンスの向上だけでなく、特定のタスクを微調整した後の他の推論タスクにおけるモデルの能力維持にも役立ちます。
論文 参考訳(メタデータ) (2024-02-17T05:05:31Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large
Language Models in Knowledge Conflicts [21.34852490049787]
本稿では,大規模言語モデル(LLM)の知識衝突時の行動に関する包括的かつ制御された最初の調査について述べる。
LLMは, パラメトリックメモリと矛盾しても, 外部の証拠に対して高い受容性を有することが判明した。
一方、LCMは、外部証拠がパラメトリックメモリと整合した情報を含む場合、強い確証バイアスを示す。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。