論文の概要: Towards Transparent Reasoning: What Drives Faithfulness in Large Language Models?
- arxiv url: http://arxiv.org/abs/2510.24236v1
- Date: Tue, 28 Oct 2025 09:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.000434
- Title: Towards Transparent Reasoning: What Drives Faithfulness in Large Language Models?
- Title(参考訳): 透明推論へ向けて - 大規模言語モデルにおける忠実性は何か?
- Authors: Teague McMillan, Gabriele Dominici, Martin Gjoreski, Marc Langheinrich,
- Abstract要約: 大きな言語モデル(LLM)は、しばしば、予測を駆動する要因を忠実に反映しない説明を生成する。
我々は、推論とトレーニング時の選択が、実践者がデプロイ時に制御できる要因に焦点をあてて、説明の忠実さを形作る方法について研究する。
- 参考スコア(独自算出の注目度): 8.042664286747419
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) often produce explanations that do not faithfully reflect the factors driving their predictions. In healthcare settings, such unfaithfulness is especially problematic: explanations that omit salient clinical cues or mask spurious shortcuts can undermine clinician trust and lead to unsafe decision support. We study how inference and training-time choices shape explanation faithfulness, focusing on factors practitioners can control at deployment. We evaluate three LLMs (GPT-4.1-mini, LLaMA 70B, LLaMA 8B) on two datasets-BBQ (social bias) and MedQA (medical licensing questions), and manipulate the number and type of few-shot examples, prompting strategies, and training procedure. Our results show: (i) both the quantity and quality of few-shot examples significantly impact model faithfulness; (ii) faithfulness is sensitive to prompting design; (iii) the instruction-tuning phase improves measured faithfulness on MedQA. These findings offer insights into strategies for enhancing the interpretability and trustworthiness of LLMs in sensitive domains.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば、予測を駆動する要因を忠実に反映しない説明を生成する。
医療環境では、このような不信感は特に問題であり、有害な臨床的手がかりやマスクのスプリットショートカットを省略する説明は、臨床医の信頼を損なう可能性があり、安全でない意思決定支援につながる。
我々は、推論とトレーニング時の選択が、実践者がデプロイ時に制御できる要因に焦点をあてて、説明の忠実さを形作る方法について研究する。
我々は,3つのLCM(GPT-4.1-mini,LLaMA 70B,LLaMA 8B)をBBQ(社会バイアス)とMedQA(医療ライセンス問題)の2つのデータセット上で評価し,少数ショット例の数と種類を操作し,戦略の推進,訓練手順について検討した。
私たちの結果は以下のとおりです。
一 少数事例の量及び品質がモデル忠実性に大きな影響を及ぼすこと。
二 意匠の推進に敏感であること。
3) MedQAにおける測定忠実度を指導調整フェーズにより改善する。
これらの知見は、機密ドメインにおけるLCMの解釈可能性および信頼性を高めるための戦略に関する洞察を与える。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers [13.644277507363036]
Revealed Beliefは,不確実性を考慮した推論を必要とするタスクに対して,Large Language Models (LLMs)を評価する評価フレームワークである。
以上の結果から,LSMは正しい回答をしばしば述べるが,Revealed Beliefは確率質量を不整合に割り当てることが多く,体系的な偏見を示し,新しい証拠が提示された時にその信念を適切に更新することができないことが示唆された。
論文 参考訳(メタデータ) (2024-06-21T08:56:35Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。