論文の概要: Counterfactual Simulation Training for Chain-of-Thought Faithfulness
- arxiv url: http://arxiv.org/abs/2602.20710v1
- Date: Tue, 24 Feb 2026 09:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.690165
- Title: Counterfactual Simulation Training for Chain-of-Thought Faithfulness
- Title(参考訳): チェーン・オブ・サード・フェイスフルネスのための実測シミュレーショントレーニング
- Authors: Peter Hase, Christopher Potts,
- Abstract要約: 我々は,CST(Counterfactual Simulation Training)と呼ばれるトレーニング手法を導入する。
CSTは、シミュレーターが偽の入力に対してモデルの出力を正確に予測できるCoTに報酬を与える。
最大235Bパラメータのモデルによる実験により、CSTはキューベースのカウンターファクトの精度を大幅に向上できることが示された。
- 参考スコア(独自算出の注目度): 46.34729653681641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspecting Chain-of-Thought reasoning is among the most common means of understanding why an LLM produced its output. But well-known problems with CoT faithfulness severely limit what insights can be gained from this practice. In this paper, we introduce a training method called Counterfactual Simulation Training (CST), which aims to improve CoT faithfulness by rewarding CoTs that enable a simulator to accurately predict a model's outputs over counterfactual inputs. We apply CST in two settings: (1) CoT monitoring with cue-based counterfactuals, to detect when models rely on spurious features, reward hack, or are sycophantic, and (2) counterfactual simulation over generic model-based counterfactuals, to encourage models to produce more faithful, generalizable reasoning in the CoT. Experiments with models up to 235B parameters show that CST can substantially improve monitor accuracy on cue-based counterfactuals (by 35 accuracy points) as well as simulatability over generic counterfactuals (by 2 points). We further show that: (1) CST outperforms prompting baselines, (2) rewriting unfaithful CoTs with an LLM is 5x more efficient than RL alone, (3) faithfulness improvements do not generalize to dissuading cues (as opposed to persuading cues), and (4) larger models do not show more faithful CoT out of the box, but they do benefit more from CST. These results suggest that CST can improve CoT faithfulness in general, with promising applications for CoT monitoring. Code for experiments in this paper is available at https://github.com/peterbhase/counterfactual-simulation-training
- Abstract(参考訳): LLMがなぜその出力を生み出したのかを理解する最も一般的な方法のひとつに、Chain-of-Thought推論の検査がある。
しかし、CoTの忠実さに関するよく知られた問題は、このプラクティスから得られる洞察を著しく制限します。
本稿では,CoTに報酬を与えることでCoTの忠実度を向上させることを目的とした,CST(Coerfactual Simulation Training)と呼ばれるトレーニング手法を提案する。
我々は,(1)CSTをキューベースのカウンターファクトによるCoTモニタリング,(2)モデルがスパイラルな特徴や報酬ハック,あるいはサイコファンティックな状態に依存することの検出,(2)汎用モデルベースのカウンターファクトに対する反ファクトシミュレーションにより,モデルがCoTをより忠実で一般化可能な推論を生み出すことを奨励する,という2つの設定でCSTを適用した。
最大235Bのパラメータを用いた実験では、CSTはCueベースのカウンターファクトの監視精度(35の精度ポイント)を大幅に向上し、一般的なカウンターファクトのシミュラビリティ(2のポイント)も向上することが示された。
さらに,(1) CSTはベースラインの促進,(2) LLMで不誠実なCoTの書き直しはRL単独よりも5倍効率が高く,(3) 忠実さの改善は(説得的キューとは対照的に)説得的キューに一般化せず,(4) 大型モデルはボックスからより忠実なCoTを提示しないが,CSTの恩恵は大きい。
これらの結果から,CSTは一般にCoTの忠実度を向上し,CoTモニタリングに有望な応用を期待できると考えられる。
本論文の実験コードはhttps://github.com/peterbhase/counterfactual-simulation-trainingで公開されている。
関連論文リスト
- CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - The Kinetics of Reasoning: How Chain-of-Thought Shapes Learning in Transformers? [25.29458951592086]
チェーン・オブ・シント(CoT)の監督はトランスフォーマーの性能を大幅に向上させることができる。
シンボリック推論タスクにおけるトランスフォーマーの事前学習により、これらの学習ダイナミクスをグラクキングのレンズを通して検討する。
論文 参考訳(メタデータ) (2025-10-28T20:14:26Z) - Can Confidence Estimates Decide When Chain-of-Thought Is Necessary for LLMs? [32.02698064940949]
CoT(Chain-of- Thought)プロンプトは、大規模言語モデルの推論能力を高めるための一般的な手法として登場した。
本研究は,CoTゲーティングのためのトレーニング不要信頼度推定手法に関する最初の体系的研究である。
論文 参考訳(メタデータ) (2025-10-23T21:33:28Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。
提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文 参考訳(メタデータ) (2025-08-21T00:20:47Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。