論文の概要: Diagnosing Pathological Chain-of-Thought in Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.13904v1
- Date: Sat, 14 Feb 2026 21:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.548893
- Title: Diagnosing Pathological Chain-of-Thought in Reasoning Models
- Title(参考訳): 推論モデルにおける病理組織鎖の診断
- Authors: Manqing Liu, David Williams-King, Ida Caspary, Linh Le, Hannes Whittingham, Puria Radmard, Cameron Tice, Edward James Young,
- Abstract要約: チェーン・オブ・シンクレット(CoT)推論は現代のLLMアーキテクチャの基本である。
我々は, ポストホック合理化, エンコード推論, 内在的推論の3つの異なる病態を同定した。
我々の研究は、CoTの病態を評価するための実用的なツールキットを提供し、トレーニング時のモニタリングに直接的な意味を持つ。
- 参考スコア(独自算出の注目度): 2.8521161475937675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning is fundamental to modern LLM architectures and represents a critical intervention point for AI safety. However, CoT reasoning may exhibit failure modes that we note as pathologies, which prevent it from being useful for monitoring. Prior work has identified three distinct pathologies: post-hoc rationalization, where models generate plausible explanations backwards from predetermined answers; encoded reasoning, where intermediate steps conceal information within seemingly interpretable text; and internalized reasoning, where models replace explicit reasoning with meaningless filler tokens while computing internally. To better understand and discriminate between these pathologies, we create a set of concrete metrics that are simple to implement, computationally inexpensive, and task-agnostic. To validate our approach, we develop model organisms deliberately trained to exhibit specific CoT pathologies. Our work provides a practical toolkit for assessing CoT pathologies, with direct implications for training-time monitoring.
- Abstract(参考訳): CoT(Chain-of- Thought)推論は、現代のLLMアーキテクチャの基本であり、AI安全性にとって重要な介入ポイントである。
しかしながら、CoT推論は、私たちが病理として言及している障害モードを示す可能性があるため、モニタリングに役立ちません。
先行研究では、モデルが所定の回答から逆向きに妥当な説明を生成するポストホック合理化、中間ステップが解釈可能なテキスト内の情報を隠蔽するエンコード推論、内部推論、モデルが内部計算中に明示的な推論を無意味なフィラートークンに置き換える内在的推論という3つの異なる方法が特定されている。
これらの病態をよりよく理解し、識別するために、我々は、実装が簡単で、計算的に安価で、タスクに依存しない、具体的なメトリクスのセットを作成します。
本研究のアプローチを検証するため,特定のCoTの病態を示すために意図的に訓練されたモデル生物を開発した。
我々の研究は、CoTの病態を評価するための実用的なツールキットを提供し、トレーニング時のモニタリングに直接的な意味を持つ。
関連論文リスト
- Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。
ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。
エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文 参考訳(メタデータ) (2025-12-23T02:44:25Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Information Science Principles of Machine Learning: A Causal Chain Meta-Framework Based on Formalized Information Mapping [7.299890614172539]
本研究は、機械学習における重要な課題、すなわち、統一的な形式的理論的枠組みの欠如と、モデル解釈可能性と倫理的安全性に関する基礎理論の欠如に対処する。
まず、一般的な機械学習段階における存在論的状態とキャリアマッピングを明確に定義し、形式的な情報モデルを構築する。
学習可能な述語と処理可能な述語を導入し、学習と処理機能を導入することにより、機械学習プロセスを管理する因果連鎖論理と制約法を解析する。
論文 参考訳(メタデータ) (2025-05-19T14:39:41Z) - The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。
本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。
このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文 参考訳(メタデータ) (2025-05-15T11:31:02Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。