論文の概要: Verifying Chain-of-Thought Reasoning via Its Computational Graph
- arxiv url: http://arxiv.org/abs/2510.09312v1
- Date: Fri, 10 Oct 2025 12:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.892468
- Title: Verifying Chain-of-Thought Reasoning via Its Computational Graph
- Title(参考訳): 計算グラフによる整合性推論の検証
- Authors: Zheng Zhao, Yeskendir Koishekenov, Xianjun Yang, Naila Murray, Nicola Cancedda,
- Abstract要約: CoT(Chain-of-Thought)検証手法は、出力(ブラックボックス)またはアクティベーション(グレイボックス)に基づいて正当性を予測する。
回路ベース推論検証(CRV)というホワイトボックス方式を導入する。
モデルの潜在推論回路の実行トレースと見なされる正しいCoTステップの帰属グラフは、間違ったステップのものと異なる構造指紋を持つことを示す。
- 参考スコア(独自算出の注目度): 23.32876195998818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Chain-of-Thought (CoT) verification methods predict reasoning correctness based on outputs (black-box) or activations (gray-box), but offer limited insight into why a computation fails. We introduce a white-box method: Circuit-based Reasoning Verification (CRV). We hypothesize that attribution graphs of correct CoT steps, viewed as execution traces of the model's latent reasoning circuits, possess distinct structural fingerprints from those of incorrect steps. By training a classifier on structural features of these graphs, we show that these traces contain a powerful signal of reasoning errors. Our white-box approach yields novel scientific insights unattainable by other methods. (1) We demonstrate that structural signatures of error are highly predictive, establishing the viability of verifying reasoning directly via its computational graph. (2) We find these signatures to be highly domain-specific, revealing that failures in different reasoning tasks manifest as distinct computational patterns. (3) We provide evidence that these signatures are not merely correlational; by using our analysis to guide targeted interventions on individual transcoder features, we successfully correct the model's faulty reasoning. Our work shows that, by scrutinizing a model's computational process, we can move from simple error detection to a deeper, causal understanding of LLM reasoning.
- Abstract(参考訳): 現在のChain-of-Thought(CoT)検証手法は、出力(ブラックボックス)やアクティベーション(グレイボックス)に基づいて推論の正確性を予測するが、なぜ計算が失敗するのかについては限定的な洞察を与える。
回路ベースのReasoning Verification (CRV) を提案する。
我々は、モデルが潜在する推論回路の実行トレースと見なされる正しいCoTステップの帰属グラフは、間違ったステップのそれとは異なる構造的指紋を持っていると仮定する。
これらのグラフの構造的特徴について分類器を訓練することにより、これらのトレースは推論エラーの強力なシグナルを含むことを示す。
私たちのホワイトボックスアプローチは、他の方法では達成できない新しい科学的洞察をもたらします。
1) 誤差の構造的シグネチャは高い予測性を示し, その計算グラフから直接推論を検証する可能性を確立した。
2) これらのシグネチャはドメイン固有であり, 異なる推論タスクの失敗を異なる計算パターンとして示す。
(3)これらのシグネチャは単なる相関関係に留まらず,個々のトランスコーダの特徴に対する標的的介入を誘導することで,モデルの誤り推論を正すことができた。
我々の研究は、モデルの計算過程を精査することにより、単純な誤り検出からLLM推論のより深い因果的理解に移行することができることを示している。
関連論文リスト
- Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - The Geometry of Self-Verification in a Task-Specific Reasoning Model [45.669264589017665]
我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。
モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンおよびボトムアップの分析を行います。
論文 参考訳(メタデータ) (2025-04-19T18:40:51Z) - STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [30.15803409441136]
自己改善検証のための構造化推論を提案する。
本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。
その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文 参考訳(メタデータ) (2025-02-17T16:07:07Z) - Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。
1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。
他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。
具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-11-16T11:26:21Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Efficient Computation of Counterfactual Bounds [44.4263314637532]
我々は,構造因果モデルのサブクラスにおけるクレダルネットのアルゴリズムを用いて,正確な反ファクト境界を計算する。
近似の精度を信頼性のある間隔で評価する。
論文 参考訳(メタデータ) (2023-07-17T07:59:47Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。