論文の概要: Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity
- arxiv url: http://arxiv.org/abs/2509.01544v2
- Date: Thu, 25 Sep 2025 01:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.019193
- Title: Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity
- Title(参考訳): 擬似感性による構造的推論の忠実度誘導
- Authors: Sanjeda Akter, Ibne Farabi Shihab, Anuj Sharma,
- Abstract要約: 大規模言語モデルは、欠陥や無関係な推論トレースに依存しながら、正しい答えを生成することが多い。
本稿では,新しい学習目標であるtextbfCounterfactual Sensitivity Regularization (CSR)を紹介する。
CSRは、標準的な微調整とプロセスの監督に対する忠実度を最大70パーセント向上させる。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning processes of large language models often lack faithfulness; a model may generate a correct answer while relying on a flawed or irrelevant reasoning trace. This behavior, a direct consequence of training objectives that solely reward final-answer correctness, severely undermines the trustworthiness of these models in high-stakes domains. This paper introduces \textbf{Counterfactual Sensitivity Regularization (CSR)}, a novel training objective designed to forge a strong, causal-like dependence between a model's output and its intermediate reasoning steps. During training, CSR performs automated, operator-level interventions on the generated reasoning trace (e.g., swapping ``+'' with ``-'') to create a minimally-perturbed counterfactual. A regularization term then penalizes the model if this logically flawed trace still yields the original answer. Our efficient implementation adds only 8.7\% training overhead through warm-start curriculum and token-subset optimization. We evaluate faithfulness using \textbf{Counterfactual Outcome Sensitivity (COS)}, a metric quantifying how sensitive the final answer is to such logical perturbations. Across diverse structured reasoning benchmarks -- arithmetic (GSM8K), logical deduction (ProofWriter), multi-hop QA (HotpotQA), and code generation (MBPP) -- models trained with CSR demonstrate a vastly superior trade-off between accuracy and faithfulness. CSR improves faithfulness over standard fine-tuning and process supervision by up to 70 percentage points, with this learned sensitivity generalizing to larger models and enhancing the performance of inference-time techniques like self-consistency.
- Abstract(参考訳): 大きな言語モデルの推論プロセスは、しばしば忠実さを欠いている。
この行動は、最終回答の正しさのみを報いる訓練目的の直接的な結果であり、これらのモデルの高い領域における信頼性を著しく損なう。
本稿では,モデル出力と中間的推論ステップの間に因果的依存を強く形成するための,新たなトレーニング目標である「textbf{Counterfactual Sensitivity Regularization (CSR)」を紹介する。
トレーニング中、CSRは生成された推論トレース(例えば ``+'' を ``-'' に置き換える)に自動でオペレータレベルの介入を実行する。
正規化項は、この論理的に欠陥のあるトレースが依然として元の答えをもたらす場合、モデルをペナル化する。
我々の効率的な実装は、ウォームスタートカリキュラムとトークン・サブセット最適化によって、わずか8.7 %のトレーニングオーバーヘッドしか加えません。
COS(textbf{Counterfactual Outcome Sensitivity)を用いて,最終回答がそのような論理摂動にどれほど敏感であるかを定量的に評価する。
さまざまな構造化推論ベンチマーク -- 算術(GSM8K)、論理推論(ProofWriter)、マルチホップQA(HotpotQA)、コード生成(MBPP) -- は、CSRでトレーニングされたモデルにおいて、正確性と忠実性のトレードオフが極めて優れていることを示している。
CSRは、より大規模なモデルに一般化し、自己整合性のような推論時の技術の性能を向上させることにより、標準的な微調整とプロセスの監督を最大70パーセント改善する。
関連論文リスト
- VISION: Robust and Interpretable Code Vulnerability Detection Leveraging Counterfactual Augmentation [6.576811224645293]
グラフニューラルネットワーク(GNN)は、構造的および論理的コード関係をデータ駆動で学習することができる。
GNNは表面的なコード類似性から'spurious'相関を学習することが多い。
我々は、VISIONと呼ばれる堅牢で解釈可能な脆弱性検出のための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T11:20:39Z) - Deliberative Reasoning Network: An Uncertainty-Driven Paradigm for Belief-Tracked Inference with Pretrained Language Models [7.095344389368656]
Deliberative Reasoning Network (DRN) は、確率から不確実性への論理的推論を再構成する新しいパラダイムである。
DRNは、信念状態を明示的に追跡し、競合する仮説の不確実性を定量化することによって、本質的な解釈可能性を達成する。
我々は、DRNを、より信頼できるAIシステムを構築するための、基礎的で検証可能なシステム2推論コンポーネントとして位置付ける。
論文 参考訳(メタデータ) (2025-08-06T11:33:35Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。