論文の概要: Measuring and Mitigating Post-hoc Rationalization in Reverse Chain-of-Thought Generation
- arxiv url: http://arxiv.org/abs/2602.14469v1
- Date: Mon, 16 Feb 2026 05:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.154888
- Title: Measuring and Mitigating Post-hoc Rationalization in Reverse Chain-of-Thought Generation
- Title(参考訳): 逆チェーン・オブ・サート生成におけるポストホック合理化の測定と緩和
- Authors: Guangyue Peng, Zongchao Chen, Wen Luo, Yuntao Wen, Wei Li, Ruixiang Feng, Ran Le, Chen Yang, Zhenwei An, Yang Song, Tao Zhang, Houfeng Wang,
- Abstract要約: 我々はこの現象を3段階の測定階層で定式化する。
我々は、モデルに解答を無視するように指示する直感的な緩和戦略である意味的抑圧を解析する。
本研究では、まず、応答不変な機能骨格構造を生成する2相アプローチである構造骨格誘導推論(SSR)を提案する。
- 参考スコア(独自算出の注目度): 27.571918867764932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reverse Chain-of-Thought Generation (RCG) synthesizes reasoning traces from query-answer pairs, but runs the risk of producing post-hoc rationalizations: when models can see the answer during generation, the answer serves as a cognitive anchor that shapes the entire explanation. We formalize this phenomenon through a three-level measurement hierarchy: lexical, entropic, and probabilistic anchoring, each captures surface artifacts, entropy dynamics, and latent answer dependence, respectively. We analyze semantic suppression, the intuitive mitigation strategy that instructs models to ignore the answer, to find out its counterproduction: while it reduces lexical overlap, it paradoxically increases entropic and probabilistic anchoring. Drawing on Ironic Process Theory from cognitive psychology, we attribute this failure to active monitoring of the forbidden answer, which inadvertently deepens dependence on it. To break this cycle, we propose Structural Skeleton-guided Reasoning (SSR), a two-phase approach that first generates an answer-invariant functional skeleton structure, then uses this skeleton to guide full trace generation. By redirecting the information flow to structural planning rather than answer monitoring, SSR consistently reduces anchoring across all three levels. We further introduce Distilled SSR (SSR-D), which fine-tunes models on teacher-generated SSR traces to ensure reliable structural adherence. Experiments across open-ended reasoning benchmarks demonstrate that SSR-D achieves up to 10% improvement over suppression baselines while preserving out-of-distribution (OOD) generalization.
- Abstract(参考訳): Reverse Chain-of-Thought Generation (RCG) は、クエリ・アンサー・ペアからの推論トレースを合成するが、ポストホックな合理化を生み出すリスクを負う。
我々はこの現象を3段階の測定階層(語彙、エントロピー、確率的アンカー)で定式化し、それぞれ表面のアーティファクト、エントロピーダイナミクス、潜時応答依存を捕捉する。
我々は,解答を無視するようにモデルに指示する直感的な緩和戦略であるセマンティック・リプレッションを解析し,その反生産性を明らかにする。
認知心理学から皮肉なプロセス理論を引いたこの失敗は、禁止された回答のアクティブなモニタリングによるもので、それは必然的にそれへの依存を深めている。
このサイクルを断ち切るために、まず応答不変の機能的骨格構造を生成する二相的アプローチである構造骨格誘導推論(SSR)を提案し、次にこの骨格を用いて完全なトレース生成を導く。
応答監視ではなく、情報フローを構造計画にリダイレクトすることで、SSRは3つのレベルにまたがるアンカリングを一貫して削減する。
さらに,教師が生成するSSRの微構造モデルであるDistilled SSR (SSR-D)を導入し,信頼性の高い構造的付着性を確保する。
オープンエンドの推論ベンチマークによる実験により、SSR-Dは、アウト・オブ・ディストリビューション(OOD)の一般化を保ちながら、抑制ベースラインよりも最大10%改善できることが示された。
関連論文リスト
- ReBeCA: Unveiling Interpretable Behavior Hierarchy behind the Iterative Self-Reflection of Language Models with Causal Analysis [35.12196884025294]
textbftexttReflection textbftexttBehavior, textbftexttBehavior は自己回帰結果の解釈可能な行動階層を明らかにするフレームワークである。
自己回帰軌道を因果グラフとしてモデル化することにより、ReBeCAは真の性能決定因子を分離する。
論文 参考訳(メタデータ) (2026-02-06T04:00:57Z) - Is my model "mind blurting"? Interpreting the dynamics of reasoning tokens with Recurrence Quantification Analysis (RQA) [1.593065406609169]
本稿では,テスト時にモデルの推論連鎖を分析するための非テクスチャ代替手段としてRecurrence Quantification Analysis (RQA)を提案する。
RQAは応答長に反映されず、タスクの複雑さの予測を8%改善する。
論文 参考訳(メタデータ) (2026-02-05T23:48:23Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - From Reasoning to Answer: Empirical, Attention-Based and Mechanistic Insights into Distilled DeepSeek R1 Models [48.01707022738742]
蒸留した3種類のDeepSeek R1モデルにおいて、推論と回答生成の相互作用を3段階に分けて検討する。
明示的な推論を含めることで、さまざまな領域での回答品質が一貫して向上することを示す。
以上の結果から,重要な推論トークンに対する摂動が最終回答を確実に変更できることが示唆された。
論文 参考訳(メタデータ) (2025-09-28T06:32:21Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。