論文の概要: Bypassing the Rationale: Causal Auditing of Implicit Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2602.03994v2
- Date: Sun, 08 Feb 2026 14:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 17:49:39.457541
- Title: Bypassing the Rationale: Causal Auditing of Implicit Reasoning in Language Models
- Title(参考訳): Rationaleをバイパスする:言語モデルにおける帰納的推論の因果的監査
- Authors: Anish Sathyanarayanan, Aditya Nagarsekar, Aarush Rathore,
- Abstract要約: 思考の連鎖(CoT)の促進は推論補助として広く用いられ、しばしば透明性のメカニズムとして扱われる。
アクティベーションパッチによるCoT忠実度に関する因果的,階層的な監査を導入する。
私たちは、CoT特有の影響は、通常、狭い「推論窓」に奥行き局所化されていることに気付きました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) prompting is widely used as a reasoning aid and is often treated as a transparency mechanism. Yet behavioral gains under CoT do not imply that the model's internal computation causally depends on the emitted reasoning text, i.e., models may produce fluent rationales while routing decision-critical computation through latent pathways. We introduce a causal, layerwise audit of CoT faithfulness based on activation patching. Our key metric, the CoT Mediation Index (CMI), isolates CoT-specific causal influence by comparing performance degradation from patching CoT-token hidden states against matched control patches. Across multiple model families (Phi, Qwen, DialoGPT) and scales, we find that CoT-specific influence is typically depth-localized into narrow "reasoning windows," and we identify bypass regimes where CMI is near-zero despite plausible CoT text. We further observe that models tuned explicitly for reasoning tend to exhibit stronger and more structured mediation than larger untuned counterparts, while Mixture-of-Experts models show more distributed mediation consistent with routing-based computation. Overall, our results show that CoT faithfulness varies substantially across models and tasks and cannot be inferred from behavior alone, motivating causal, layerwise audits when using CoT as a transparency signal.
- Abstract(参考訳): 思考の連鎖(CoT)の促進は推論補助として広く用いられ、しばしば透明性のメカニズムとして扱われる。
しかし、CoTの下での行動的利得は、モデルの内部計算が出力された推論テキストに因果的に依存しているという意味ではない。
アクティベーションパッチによるCoT忠実度に関する因果的,階層的な監査を導入する。
我々の主要な指標であるCoT Mediation Index (CMI) は、CoT固有の因果関係を、マッチした制御パッチに対するCoTトークンの隠蔽状態のパッチによる性能劣化を比較して分離する。
複数のモデルファミリ(Phi, Qwen, DialoGPT)とスケールにわたって、CoT特有の影響は、通常、狭い「推論窓」に奥行き局所化されている。
さらに、推論のために明示的に調整されたモデルは、より大きな未調整のモデルよりも強く、より構造化された調停を示す傾向があり、一方、Mixture-of-Expertsモデルは、ルーティングベースの計算と一致したより分散調停を示す。
以上の結果から,CoTを透過信号として使用する場合,CoTの忠実度はモデルやタスクによって大きく異なり,行動のみから推定することは不可能であることが示唆された。
関連論文リスト
- On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity [3.117948413097524]
CoT(Chain-of- Thought)出力によって、モデルのステップバイステップ推論を読み取ることができます。
BBH,GPQA,MMLUの命令調整モデルと推論モデルについて検討した。
論文 参考訳(メタデータ) (2025-10-31T11:14:39Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。