論文の概要: Catching rationalization in the act: detecting motivated reasoning before and after CoT via activation probing
- arxiv url: http://arxiv.org/abs/2603.17199v1
- Date: Tue, 17 Mar 2026 23:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.436056
- Title: Catching rationalization in the act: detecting motivated reasoning before and after CoT via activation probing
- Title(参考訳): アクティベーション・プロブリングによるCoT前後の動機付けの合理化
- Authors: Parsa Mirtaheri, Mikhail Belkin,
- Abstract要約: 大規模言語モデル(LLM)は、その答えを駆動する実際の要因を正確に反映しない思考の連鎖(CoT)を生成することができる。
内的アクティベーションの探索により動機付け推論が識別可能であることを示す。
- 参考スコア(独自算出の注目度): 14.176238828329952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can produce chains of thought (CoT) that do not accurately reflect the actual factors driving their answers. In multiple-choice settings with an injected hint favoring a particular option, models may shift their final answer toward the hinted option and produce a CoT that rationalizes the response without acknowledging the hint - an instance of motivated reasoning. We study this phenomenon across multiple LLM families and datasets demonstrating that motivated reasoning can be identified by probing internal activations even in cases when it cannot be easily determined from CoT. Using supervised probes trained on the model's residual stream, we show that (i) pre-generation probes, applied before any CoT tokens are generated, predict motivated reasoning as well as a LLM-based CoT monitor that accesses the full CoT trace, and (ii) post-generation probes, applied after CoT generation, outperform the same monitor. Together, these results show that motivated reasoning is detected more reliably from internal representations than from CoT monitoring. Moreover, pre-generation probing can flag motivated behavior early, potentially avoiding unnecessary generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その答えを駆動する実際の要因を正確に反映しない思考の連鎖(CoT)を生成することができる。
特定のオプションを好むインジェクション付きヒントを持つ複数選択設定では、モデルが最後の回答をヒント付きオプションにシフトし、ヒントを認識することなく応答を合理化するCoTを生成する。
この現象を複数のLLMファミリーやデータセットで研究し、CoTから容易に決定できない場合にも内部アクティベーションを探索することで動機付け推論を識別できることを実証した。
モデル残差ストリームで訓練された教師型プローブを用いて、そのことを示す。
i)CoTトークンが生成される前に適用された前世代プローブ、動機付け推論、および完全なCoTトレースにアクセスするLLMベースのCoTモニタ
(II)CoT後に印加されたポストジェネレーションプローブは、同じモニタより優れていた。
これらの結果から,CoTモニタリングより内部表現から動機付け推論を確実に検出できることが示唆された。
さらに、前世代の探索は、早期に動機付けされた行動にフラグを付けることができ、不要な生成を避ける可能性がある。
関連論文リスト
- Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering [5.427346259545067]
CoT(Chain-of- Thought)は、大規模言語モデルにおける推論機能のスケーリングの中心となっている。
命令調整モデルがCoTを生成する前に解答を決定する場合が多いことを示す。
論文 参考訳(メタデータ) (2026-03-02T04:33:55Z) - CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction [50.67483317563736]
本稿では,段階的に考察し,必要な情報を検索し,結果を生成し,自己評価を行い,結果を洗練するシステムを提案する。
CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-01-24T11:41:54Z) - Reasoning Beyond Chain-of-Thought: A Latent Computational Mode in Large Language Models [39.5490415037017]
CoT(Chain-of-Thought)プロンプトにより,大規模言語モデル(LLM)の推論性能が向上した。
なぜそれが機能するのか、そしてそれが大きな言語モデルで推論をトリガーするユニークなメカニズムであるかどうかは不明だ。
論文 参考訳(メタデータ) (2026-01-12T23:01:21Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - Can We Predict Alignment Before Models Finish Thinking? Towards Monitoring Misaligned Reasoning Models [14.840508854268522]
推論言語モデルは、長い思考の連鎖(CoT)を生成することによって、複雑なタスクにおけるパフォーマンスを改善する
我々は、CoTテキストまたはアクティベーションを用いて、様々なモニタリング手法を評価する。
CoTアクティベーションに基づいて訓練された単純な線形プローブは、最終応答が安全か安全でないかを予測する際に、テキストベースのベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-07-16T17:16:03Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。