論文の概要: How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation
- arxiv url: http://arxiv.org/abs/2507.20758v1
- Date: Mon, 28 Jul 2025 12:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.10805
- Title: How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation
- Title(参考訳): チェーン・オブ・ワットの働き方 : 復号・投影・活性化からの情報の流れの追跡
- Authors: Hao Yang, Qinghua Zhao, Lei Li,
- Abstract要約: CoT(Chain-of-Thought)はモデル推論を著しく促進するが、内部メカニズムはよく分かっていない。
我々は,CoTの運用原理を,デコーディング,プロジェクション,アクティベーションの各フェーズにまたがる情報の流れを逆トレースすることで解析する。
- 参考スコア(独自算出の注目度): 9.455881608413137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting significantly enhances model reasoning, yet its internal mechanisms remain poorly understood. We analyze CoT's operational principles by reversely tracing information flow across decoding, projection, and activation phases. Our quantitative analysis suggests that CoT may serve as a decoding space pruner, leveraging answer templates to guide output generation, with higher template adherence strongly correlating with improved performance. Furthermore, we surprisingly find that CoT modulates neuron engagement in a task-dependent manner: reducing neuron activation in open-domain tasks, yet increasing it in closed-domain scenarios. These findings offer a novel mechanistic interpretability framework and critical insights for enabling targeted CoT interventions to design more efficient and robust prompts. We released our code and data at https://anonymous.4open.science/r/cot-D247.
- Abstract(参考訳): CoT(Chain-of-Thought)はモデル推論を著しく促進するが、内部メカニズムはよく分かっていない。
我々は,CoTの運用原理を,デコーディング,プロジェクション,アクティベーションの各フェーズにまたがる情報の流れを逆トレースすることで解析する。
定量的解析により,CoTはデコードスペースプルーナーとして機能し,応答テンプレートを利用して出力生成を誘導し,高いテンプレートアテンデンスと性能の改善が強く関連していることが示唆された。
さらに、CoTはタスク依存的な方法でニューロンのエンゲージメントを調節し、オープンドメインタスクではニューロンの活性化を減少させるが、クローズドドメインのシナリオではそれを増大させる。
これらの発見は、より効率的で堅牢なプロンプトを設計するためのCoT介入を可能にするための、新しい機械的解釈可能性フレームワークと重要な洞察を提供する。
コードとデータはhttps://anonymous.4open.science/r/cot-D247で公開しました。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.0]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。