論文の概要: Counterfactual Sensitivity for Faithful Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2509.01544v1
- Date: Mon, 01 Sep 2025 15:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.746355
- Title: Counterfactual Sensitivity for Faithful Reasoning in Language Models
- Title(参考訳): 言語モデルにおける忠実推論のための対物感性
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば欠陥や無関係な推論トレースに依存しながら正しい答えを生成する。
本稿では,中間的推論と最終的な出力の依存を強制する軽量な学習目標であるCSR(Conserfactual Sensitivity Regularization)を提案する。
忠実度を測定するために,モデル予測に対するこのような摂動の影響を定量化するCOS(Counterfactual Outcome Sensitivity)を導入する。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often produce correct answers while relying on flawed or irrelevant reasoning traces, undermining their trustworthiness in high-stakes domains. We propose Counterfactual Sensitivity Regularization (CSR), a lightweight training objective that enforces dependence between intermediate reasoning and final outputs. CSR introduces automated, operator-level counterfactual interventions (e.g., swapping "+" with "-") during training and penalizes models that preserve the same answer under logically invalid traces. This requires only one additional forward pass per sample. To measure faithfulness, we introduce Counterfactual Outcome Sensitivity (COS), which quantifies the impact of such perturbations on model predictions. Across structured reasoning tasks - arithmetic (GSM8K), logical deduction (PrOntoQA), and planning (Blocks World) - CSR improves faithfulness by up to 70 percentage points over standard fine-tuning and process supervision, with only minor accuracy loss. The learned sensitivity generalizes to larger models and synergizes with inference-time methods such as self-consistency. A pilot study on HellaSwag further demonstrates that extending CSR with semantic perturbations can enhance faithfulness in commonsense reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば、欠陥または無関係な推論トレースに依存しながら正しい答えを生成し、高い領域における信頼性を損なう。
本稿では,中間的推論と最終的な出力の依存を強制する軽量な学習目標であるCSR(Conserfactual Sensitivity Regularization)を提案する。
CSRは、トレーニング中に「+」を「-」に置き換え、論理的に無効なトレースの下で同じ回答を保持するモデルを罰する自動化されたオペレータレベルの対実的介入(例:「+」を「-」に置き換える)を導入している。
これはサンプル毎に1つのフォワードパスしか必要としない。
忠実度を測定するために,モデル予測に対するこのような摂動の影響を定量化するCOS(Counterfactual Outcome Sensitivity)を導入する。
算術(GSM8K)、論理推論(PrOntoQA)、計画(Blocks World)、CSRは標準的な微調整やプロセスの監督よりも最大70ポイント忠実性を改善し、精度はわずかである。
学習感度はより大きなモデルに一般化され、自己整合性のような推論時間法と相乗化される。
HellaSwagのパイロット研究により、意味的摂動によるCSRの拡張はコモンセンス推論における忠実性を高めることが示されている。
関連論文リスト
- VISION: Robust and Interpretable Code Vulnerability Detection Leveraging Counterfactual Augmentation [6.576811224645293]
グラフニューラルネットワーク(GNN)は、構造的および論理的コード関係をデータ駆動で学習することができる。
GNNは表面的なコード類似性から'spurious'相関を学習することが多い。
我々は、VISIONと呼ばれる堅牢で解釈可能な脆弱性検出のための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T11:20:39Z) - Deliberative Reasoning Network: An Uncertainty-Driven Paradigm for Belief-Tracked Inference with Pretrained Language Models [7.095344389368656]
Deliberative Reasoning Network (DRN) は、確率から不確実性への論理的推論を再構成する新しいパラダイムである。
DRNは、信念状態を明示的に追跡し、競合する仮説の不確実性を定量化することによって、本質的な解釈可能性を達成する。
我々は、DRNを、より信頼できるAIシステムを構築するための、基礎的で検証可能なシステム2推論コンポーネントとして位置付ける。
論文 参考訳(メタデータ) (2025-08-06T11:33:35Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。