論文の概要: Unbiased Reasoning for Knowledge-Intensive Tasks in Large Language Models via Conditional Front-Door Adjustment
- arxiv url: http://arxiv.org/abs/2508.16910v1
- Date: Sat, 23 Aug 2025 05:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.247042
- Title: Unbiased Reasoning for Knowledge-Intensive Tasks in Large Language Models via Conditional Front-Door Adjustment
- Title(参考訳): 条件付きフロントドア調整による大規模言語モデルにおける知識集約型タスクの非バイアス推論
- Authors: Bo Zhao, Yinghao Zhang, Ziqi Xu, Yongli Ren, Xiuzhen Zhang, Renqiang Luo, Zaiwen Feng, Feng Xia,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理において顕著な能力を示しているが、知識集約的なタスクではうまく機能しない。
本稿では,クエリと応答間の因果効果の偏りのない推定を可能にする,新しい因果的プロンプトフレームワークである条件付きフロントドアプロンプト(CFD-Prompting)を提案する。
- 参考スコア(独自算出の注目度): 14.539964360184086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown impressive capabilities in natural language processing but still struggle to perform well on knowledge-intensive tasks that require deep reasoning and the integration of external knowledge. Although methods such as Retrieval-Augmented Generation (RAG) and Chain-of-Thought (CoT) have been proposed to enhance LLMs with external knowledge, they still suffer from internal bias in LLMs, which often leads to incorrect answers. In this paper, we propose a novel causal prompting framework, Conditional Front-Door Prompting (CFD-Prompting), which enables the unbiased estimation of the causal effect between the query and the answer, conditional on external knowledge, while mitigating internal bias. By constructing counterfactual external knowledge, our framework simulates how the query behaves under varying contexts, addressing the challenge that the query is fixed and is not amenable to direct causal intervention. Compared to the standard front-door adjustment, the conditional variant operates under weaker assumptions, enhancing both robustness and generalisability of the reasoning process. Extensive experiments across multiple LLMs and benchmark datasets demonstrate that CFD-Prompting significantly outperforms existing baselines in both accuracy and robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理において印象的な能力を示しているが、深い推論と外部知識の統合を必要とする知識集約的なタスクでは、依然としてうまく機能しない。
Retrieval-Augmented Generation (RAG) や Chain-of-Thought (CoT) といった手法は、外部知識でLLMを強化するために提案されているが、LLMの内部バイアスに悩まされ、しばしば誤った回答をもたらす。
本稿では,クエリと応答間の因果的影響を不偏に推定し,内部バイアスを軽減しつつ,外部知識に条件を付与する新しい因果的プロンプトフレームワークCFD-Promptingを提案する。
対物的外部知識を構築することによって、我々のフレームワークはクエリが様々な状況下でどのように振る舞うかをシミュレートし、クエリが固定され、直接的な因果的介入には適さないという課題に対処する。
標準のフロントドア調整と比較すると、条件変数はより弱い仮定の下で動作し、推論過程の堅牢性と一般化性の両方を高める。
複数のLLMとベンチマークデータセットにわたる大規模な実験は、CFD-Promptingが既存のベースラインを精度と堅牢性の両方で著しく上回っていることを示している。
関連論文リスト
- Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。
13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。
ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文 参考訳(メタデータ) (2025-04-02T20:18:50Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Test-Time Fairness and Robustness in Large Language Models [17.758735680493917]
Frontier Large Language Models (LLM) は、社会的に差別的であるか、その入力の刺激的な特徴に敏感である。
既存のソリューションは、LLMに公正か堅牢かを指示し、モデルのバイアスに対する暗黙の理解に依存します。
暗黙的な指示とは異なり、我々のプロンプト戦略は、フロンティアLSMのバイアスを一貫して減少させることを示す。
論文 参考訳(メタデータ) (2024-06-11T20:05:15Z) - Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。