論文の概要: When Chains of Thought Don't Matter: Causal Bypass in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.03994v1
- Date: Tue, 03 Feb 2026 20:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.264892
- Title: When Chains of Thought Don't Matter: Causal Bypass in Large Language Models
- Title(参考訳): 思考の連鎖が重要でないとき--大規模言語モデルにおける因果バイパス
- Authors: Anish Sathyanarayanan, Aditya Nagarsekar, Aarush Rathore,
- Abstract要約: CoT(Chain-of- Thought)プロンプトは、モデルの推論プロセスを公開し、透明性を向上させると広く仮定されている。
この障害モードを監査するための診断フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) prompting is widely assumed to expose a model's reasoning process and improve transparency. We attempted to enforce this assumption by penalizing unfaithful reasoning, but found that surface-level compliance does not guarantee causal reliance. Our central finding is negative: even when CoT is verbose, strategic, and flagged by surface-level manipulation detectors, model answers are often causally independent of the CoT content. We present a diagnostic framework for auditing this failure mode: it combines (i) an interpretable behavioral module that scores manipulation-relevant signals in CoT text and (ii) a causal probe that measures CoT-mediated influence (CMI) via hidden-state patching and reports a bypass score ($1-\mathrm{CMI}$), quantifying the degree to which the answer is produced by a bypass circuit independent of the rationale. In pilot evaluations, audit-aware prompting increases detectable manipulation signals (mean risk-score delta: $+5.10$), yet causal probes reveal task-dependent mediation: many QA items exhibit near-total bypass (CMI $\approx 0$), while some logic problems show stronger mediation (CMI up to $0.56$). Layer-wise analysis reveals narrow and task-dependent ``reasoning windows'' even when mean CMI is low.
- Abstract(参考訳): CoT(Chain-of- Thought)プロンプトは、モデルの推論プロセスを公開し、透明性を向上させると広く仮定されている。
我々は、不誠実な推論を罰することで、この仮定を強制しようとしたが、表面レベルのコンプライアンスは因果関係を保証しないことがわかった。
私たちの中心的な発見は否定的であり、CoTが冗長で戦略的で、表面レベルの検知器によってフラグ付けされている場合でも、モデル回答はCoTの内容に因果的に依存することが多い。
この障害モードを監査するための診断フレームワークを提案する。
i)CoTテキストの操作関連信号をスコアし,解釈可能な動作モジュール
(II)CoTを介する影響(CMI)を隠蔽状態のパッチで測定し、バイパススコア(1-\mathrm{CMI}$)を報告する因果プローブで、解答が理論的に無関係なバイパス回路によって生成される程度を定量化する。
パイロット評価では、監査認識のプロンプトは検出可能な操作信号(リスクスコアデルタ:$+5.10$)を増加させるが、因果プローブはタスク依存の調停を示す:多くのQA項目は、ほぼ完全なバイパス(CMI $\approx 0$)を示すが、いくつかの論理問題は、より強い調停を示す(CMIは0.56$まで)。
レイヤワイズ分析では、CMIの平均値が低い場合でも、狭くタスク依存の `reasoning windows'' が示される。
関連論文リスト
- ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity [3.117948413097524]
CoT(Chain-of- Thought)出力によって、モデルのステップバイステップ推論を読み取ることができます。
BBH,GPQA,MMLUの命令調整モデルと推論モデルについて検討した。
論文 参考訳(メタデータ) (2025-10-31T11:14:39Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful Post-hoc Rationalisation? [32.02698064940949]
CoT (Chain-of-Thought) はしばしばソフト推論問題に対して限られた利得を得る。
そこで本研究では,CoTのソフト推論タスクにおける動的・忠実性について検討する。
論文 参考訳(メタデータ) (2025-08-27T12:25:29Z) - Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。