論文の概要: How does Chain of Thought Think? Mechanistic Interpretability of Chain-of-Thought Reasoning with Sparse Autoencoding
- arxiv url: http://arxiv.org/abs/2507.22928v1
- Date: Thu, 24 Jul 2025 10:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.221159
- Title: How does Chain of Thought Think? Mechanistic Interpretability of Chain-of-Thought Reasoning with Sparse Autoencoding
- Title(参考訳): 思考の連鎖はどのように考えるか?スパースオートエンコーディングによる思考の連鎖の機械論的解釈可能性
- Authors: Xi Chen, Aske Plaat, Niki van Stein,
- Abstract要約: CoT(Chain-of- Thought)は、多段階タスクにおけるLarge Language Modelsの精度を高める。
しかし、生成された「考え」が真の内部推論過程を反映しているかどうかは未解決である。
本研究は,CoT忠実度に関する最初の特徴レベル因果研究である。
- 参考スコア(独自算出の注目度): 3.8914132324834045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) prompting boosts Large Language Models accuracy on multi-step tasks, yet whether the generated "thoughts" reflect the true internal reasoning process is unresolved. We present the first feature-level causal study of CoT faithfulness. Combining sparse autoencoders with activation patching, we extract monosemantic features from Pythia-70M and Pythia-2.8B while they tackle GSM8K math problems under CoT and plain (noCoT) prompting. Swapping a small set of CoT-reasoning features into a noCoT run raises answer log-probabilities significantly in the 2.8B model, but has no reliable effect in 70M, revealing a clear scale threshold. CoT also leads to significantly higher activation sparsity and feature interpretability scores in the larger model, signalling more modular internal computation. For example, the model's confidence in generating correct answers improves from 1.2 to 4.3. We introduce patch-curves and random-feature patching baselines, showing that useful CoT information is not only present in the top-K patches but widely distributed. Overall, our results indicate that CoT can induce more interpretable internal structures in high-capacity LLMs, validating its role as a structured prompting method.
- Abstract(参考訳): CoT(Chain-of-Thought)の促進により、多段階タスクにおけるLarge Language Modelsの精度が向上するが、生成した"Thoughts"が真の内部推論プロセスを反映しているかは未解決である。
本研究は,CoT忠実度に関する最初の特徴レベル因果研究である。
スパースオートエンコーダとアクティベーションパッチを組み合わせることで,Pythia-70MとPythia-2.8Bから単意味的特徴を抽出する。
数セットのCoT推論機能をnoCoTランにスワップすると、2.8Bモデルでは解答ログ確率が著しく上昇するが、70Mでは信頼性がないため、明確なスケール閾値が示される。
CoTはまた、より大きなモデルのアクティベーション間隔と機能解釈可能性スコアを著しく向上させ、よりモジュラーな内部計算をシグナルとする。
例えば、正しい回答を生成するためのモデルの信頼性は1.2から4.3に向上する。
パッチ曲線とランダムなパッチのベースラインを導入し、CoTの有用な情報はトップKパッチだけでなく、広く分散されていることを示す。
以上の結果から,CoTは高容量LCMにおいてより解釈可能な内部構造を誘導し,構造的プロンプト法としての役割を検証できることが示された。
関連論文リスト
- How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation [9.455881608413137]
CoT(Chain-of-Thought)はモデル推論を著しく促進するが、内部メカニズムはよく分かっていない。
我々は,CoTの運用原理を,デコーディング,プロジェクション,アクティベーションの各フェーズにまたがる情報の流れを逆トレースすることで解析する。
論文 参考訳(メタデータ) (2025-07-28T12:11:16Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting [0.0]
Chain-of-Thought(CoT)プロンプトは,大規模言語モデルに“ステップバイステップ”を推奨するテクニックである。
CoTプロンプトの有効性はタスクの種類やモデルによって大きく異なる。
明確な推論能力を持つモデルの場合、CoTのプロンプトは答えの正確性に限界があるだけである。
論文 参考訳(メタデータ) (2025-06-08T13:41:25Z) - CoT-Valve: Length-Compressible Chain-of-Thought Tuning [50.196317781229496]
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-13T18:52:36Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。