論文の概要: Detecting Unfaithful Chain-of-Thought via Circuit-Guided Internal-External Discrepancy
- arxiv url: http://arxiv.org/abs/2605.25603v1
- Date: Mon, 25 May 2026 08:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.534859
- Title: Detecting Unfaithful Chain-of-Thought via Circuit-Guided Internal-External Discrepancy
- Title(参考訳): 回路ガイドを用いた外的不一致による不誠実な結束の検出
- Authors: Xu Shen, Zhen Tan, Song Wang, Pingjun Hong, Rui Miao, Xin Wang, Tianlong Chen,
- Abstract要約: 思考の連鎖(CoT)推論は、大きな言語モデルの問題解決能力を向上する。
生成された推論トレースは、モデルの実際の決定プロセスを忠実に反映しないかもしれない。
本稿では,CIE-Scorerを用いたCIE-ScorerによるCoT不整合検出手法を提案する。
- 参考スコア(独自算出の注目度): 43.942072229910515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning improves the problem-solving ability of large language models (LLMs), but generated reasoning traces may not faithfully reflect the model's actual decision process. Existing CoT unfaithfulness detectors mainly rely on external signals from generated rationales, such as textual plausibility or answer consistency, while overlooking evidence from the model's internal computation. Although recent circuit tracing methods provide a way to obtain model-internal evidence by tracing how information flows through model components during reasoning, constructing full reasoning circuits for long CoTs is costly and difficult to scale. To address these challenges, we propose Circuit-guided Internal-External Discrepancy Scorer (CIE-Scorer), a framework for instance-level CoT unfaithfulness detection. The key idea is that faithful reasoning traces should align with the model's computational process, whereas unfaithful traces may diverge from it. CIE-Scorer efficiently traces compact sentence-level circuits from informative reasoning tokens, constructs internal and external reasoning graphs, and measures their discrepancy using Fused Gromov--Wasserstein distance. Experiments on four datasets from FaithCoT-Bench show that CIE-Scorer achieves state-of-the-art performance while reducing the cost of circuit construction, demonstrating the effectiveness of combining mechanistic interpretability signals with external reasoning traces for CoT unfaithfulness detection.
- Abstract(参考訳): CoT推論は、大きな言語モデル(LLM)の問題解決能力を改善するが、生成された推論トレースは、モデルの実際の決定過程を忠実に反映しないかもしれない。
既存のCoT不確実性検知器は、主にテキストの妥当性や応答の整合性などの生成した有理性からの外部信号に依存し、モデルの内部計算から証拠を見落としている。
近年の回路トレース手法は、推論中に情報がどのようにモデルコンポーネントを通して流れるかをトレースすることで、モデル内部の証拠を得る手段を提供しているが、長いCoTのための完全な推論回路の構築は費用がかかり、スケールが難しい。
これらの課題に対処するために、CIE-Scorer(Circuit-guided Internal-External Discrepancy Scorer)を提案する。
鍵となる考え方は、忠実な推論トレースはモデルの計算プロセスと一致すべきであり、不誠実なトレースはそれから分岐するかもしれないということである。
CIE-Scorerは、情報的推論トークンからコンパクトな文レベル回路を効率的にトレースし、内部および外部の推論グラフを構築し、Fused Gromov--Wasserstein距離を用いてそれらの差を測定する。
FaithCoT-Benchによる4つのデータセットの実験により、CIE-Scorerは回路構築コストを低減しつつ、最先端の性能を実現し、機械的解釈可能性信号とCoTの不信検出のための外部推論トレースの組み合わせの有効性を実証した。
関連論文リスト
- Faithfulness as Information Flow: Evaluating and Training Faithful Chain-of-Thought Reasoning [10.87972575497941]
思考の連鎖(CoT)推論は言語モデルを監視するのに有用である。
モデルはCoTをバイパスするプロンプト・ツー・アンサー・ショートカットに依存することができる。
構造的情報フローの観点からCoTの忠実性を考察する。
論文 参考訳(メタデータ) (2026-05-22T23:37:29Z) - Structural Anchors and Reasoning Fragility:Understanding CoT Robustness in LLM4Code [13.598118096561775]
Chain-of-Thought (CoT) プロンプトは、コードのための大きな言語モデル (LLM4Code) から明示的な推論を引き出すために広く使われている。
我々は、CoTが内部の不確実性ダイナミクスをどのように再認識し、なぜコード生成を助けるのではなく、時に悪影響を及ぼすのかを研究する。
論文 参考訳(メタデータ) (2026-04-14T02:48:29Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Bypassing the Rationale: Causal Auditing of Implicit Reasoning in Language Models [0.0]
思考の連鎖(CoT)の促進は推論補助として広く用いられ、しばしば透明性のメカニズムとして扱われる。
アクティベーションパッチによるCoT忠実度に関する因果的,階層的な監査を導入する。
私たちは、CoT特有の影響は、通常、狭い「推論窓」に奥行き局所化されていることに気付きました。
論文 参考訳(メタデータ) (2026-02-03T20:27:49Z) - CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction [50.67483317563736]
本稿では,段階的に考察し,必要な情報を検索し,結果を生成し,自己評価を行い,結果を洗練するシステムを提案する。
CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-01-24T11:41:54Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。