論文の概要: To Trust or Not to Trust? Enhancing Large Language Models' Situated Faithfulness to External Contexts
- arxiv url: http://arxiv.org/abs/2410.14675v2
- Date: Mon, 17 Mar 2025 04:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:45.802299
- Title: To Trust or Not to Trust? Enhancing Large Language Models' Situated Faithfulness to External Contexts
- Title(参考訳): 信頼すべきか信頼すべきでないか : 大規模言語モデルによる外的文脈への信頼感の促進
- Authors: Yukun Huang, Sanxing Chen, Hongyi Cai, Bhuwan Dhingra,
- Abstract要約: 大規模言語モデル(LLM)は、検索強化世代(RAG)など、外部コンテキストで拡張されることが多い。
正しいコンテキストと間違ったコンテキストの両方を提供する場合、オープンソースモデルとプロプライエタリモデルの両方が、外部情報に過度に依存する傾向にあることを示す。
自己ガイド型信頼推論(SCR)とルールベース信頼推論(RCR)の2つのアプローチを提案する。
- 参考スコア(独自算出の注目度): 10.748768620243982
- License:
- Abstract: Large Language Models (LLMs) are often augmented with external contexts, such as those used in retrieval-augmented generation (RAG). However, these contexts can be inaccurate or intentionally misleading, leading to conflicts with the model's internal knowledge. We argue that robust LLMs should demonstrate situated faithfulness, dynamically calibrating their trust in external information based on their confidence in the internal knowledge and the external context to resolve knowledge conflicts. To benchmark this capability, we evaluate LLMs across several QA datasets, including a newly created dataset featuring in-the-wild incorrect contexts sourced from Reddit posts. We show that when provided with both correct and incorrect contexts, both open-source and proprietary models tend to overly rely on external information, regardless of its factual accuracy. To enhance situated faithfulness, we propose two approaches: Self-Guided Confidence Reasoning (SCR) and Rule-Based Confidence Reasoning (RCR). SCR enables models to self-assess the confidence of external information relative to their own internal knowledge to produce the most accurate answer. RCR, in contrast, extracts explicit confidence signals from the LLM and determines the final answer using predefined rules. Our results show that for LLMs with strong reasoning capabilities, such as GPT-4o and GPT-4o mini, SCR outperforms RCR, achieving improvements of up to 24.2% over a direct input augmentation baseline. Conversely, for a smaller model like Llama-3-8B, RCR outperforms SCR. Fine-tuning SCR with our proposed Confidence Reasoning Direct Preference Optimization (CR-DPO) method improves performance on both seen and unseen datasets, yielding an average improvement of 8.9% on Llama-3-8B. In addition to quantitative results, we offer insights into the relative strengths of SCR and RCR.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、検索強化世代(RAG)など、外部コンテキストで拡張されることが多い。
しかし、これらのコンテキストは不正確あるいは意図的に誤解を招く可能性があるため、モデルの内部知識と矛盾する。
頑健なLCMは、内部知識に対する信頼度と、知識紛争を解決するための外部コンテキストに基づいて、外部情報に対する信頼を動的に調整し、その位置を忠実に示すべきである、と我々は主張する。
この機能をベンチマークするために、Redditの投稿から得られた不正確なコンテキストを特徴とする、新たに作成されたデータセットを含む、いくつかのQAデータセットにわたるLCMを評価した。
正しいコンテキストと誤ったコンテキストの両方を提供する場合、オープンソースモデルとプロプライエタリモデルの両方が、実際の正確性に関わらず、外部情報に過度に依存する傾向にあることを示す。
本研究では,信頼度を高めるために,自己ガイド型信頼推論(SCR)とルールベース信頼推論(RCR)の2つのアプローチを提案する。
SCRは、モデルが自身の内部知識に対する外部情報の信頼性を自己評価し、最も正確な答えを生み出すことを可能にする。
対照的に、RCRはLCMから明確な信頼信号を抽出し、事前定義されたルールを用いて最終回答を決定する。
その結果, GPT-4o や GPT-4o mini などの強い推論能力を持つ LLM では, SCR は RCR よりも優れ, 直接入力増強ベースラインよりも最大 24.2% 向上していることがわかった。
逆に、Llama-3-8Bのような小さなモデルでは、RCRはSCRより優れている。
提案手法であるCR-DPO(Confidence Reasoning Direct Preference Optimization)を用いてSCRを微調整することにより,Llama-3-8Bでは平均8.9%向上した。
定量的な結果に加えて,SCRとRCRの相対強度に関する知見も提供する。
関連論文リスト
- CER: Confidence Enhanced Reasoning in LLMs [2.4392539322920763]
本稿では,大規模言語モデル応答の精度向上を目的とした不確実性認識フレームワークを提案する。
数理推論における数値結果や開領域生成における固有名詞などの中間回答の信頼度を定量化する。
その結果,新しい信頼度集計法の有効性を一貫して検証した。
論文 参考訳(メタデータ) (2025-02-20T15:16:42Z) - Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。
本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文 参考訳(メタデータ) (2025-02-17T11:11:09Z) - Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models [63.116041268654705]
同じ大言語モデル内の異なる内部報酬モデルが、しばしば矛盾した嗜好を生じさせることがわかった。
この矛盾は、自己生成の嗜好データの信頼性への懸念を高め、全体的なアライメントパフォーマンスを阻害し、さらなる研究の必要性を強調する。
トレーニング中に内部報酬モデル間の整合性を高めるための新しいフレームワークである自己一貫性内部報酬(SCIR)を提案する。
論文 参考訳(メタデータ) (2025-02-13T03:15:31Z) - Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。
本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文 参考訳(メタデータ) (2025-02-10T04:29:36Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。