論文の概要: SIM-CoT: Supervised Implicit Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2509.20317v2
- Date: Thu, 25 Sep 2025 12:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.131772
- Title: SIM-CoT: Supervised Implicit Chain-of-Thought
- Title(参考訳): SIM-CoT:必需品の連鎖を監督
- Authors: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin,
- Abstract要約: Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
- 参考スコア(独自算出の注目度): 108.30049193668083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit Chain-of-Thought (CoT) methods offer a token-efficient alternative to explicit CoT reasoning in Large Language Models (LLMs), but a persistent performance gap has limited their adoption. We identify a core latent instability issue when scaling the computational budget of implicit CoT: as the number of reasoning tokens increases, training often becomes unstable and collapses. Our analysis shows that this instability arises from latent representations becoming homogeneous and losing semantic diversity, caused by insufficient step-level supervision in current implicit CoT methods. To address this, we propose SIM-CoT, a plug-and-play training module that introduces step-level supervision to stabilize and enrich the latent reasoning space. SIM-CoT employs an auxiliary decoder during training to align each implicit token with its corresponding explicit reasoning step, ensuring latent states capture distinct and meaningful information. The auxiliary decoder is removed at inference, preserving the efficiency of implicit CoT with no added overhead. It also provides interpretability by projecting each latent token onto an explicit reasoning vocabulary, enabling per-step visualization and diagnosis. SIM-CoT significantly improves both in-domain accuracy and out-of-domain stability of implicit CoT methods, boosting Coconut by +8.2\% on GPT-2 and CODI by +3.0\% on LLaMA-3.1 8B. It further surpasses the explicit CoT baseline on GPT-2 by 2.1\% with 2.3$\times$ greater token efficiency, while closing the performance gap on larger models like LLaMA-3.1 8B. Code: https://github.com/InternLM/SIM-CoT
- Abstract(参考訳): Implicit Chain-of-Thought(CoT)メソッドは、LLM(Large Language Models)における明示的なCoT推論に代わるトークン効率の代替手段を提供するが、持続的なパフォーマンスギャップは採用を制限している。
暗黙のCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
この不安定性は,現行の暗黙的CoT法ではステップレベルの監督が不十分なため,不均一な表現が均一になり,意味的多様性が失われることから生じる。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を提供する,プラグアンドプレイトレーニングモジュールである。
SIM-CoTはトレーニング中に補助的なデコーダを使用して、各暗黙のトークンを対応する明示的な推論ステップと整合させ、潜在状態が識別され有意義な情報をキャプチャすることを保証する。
補助デコーダは推論時に除去され、暗黙のCoTの効率をオーバーヘッドなしで維持する。
また、各潜在トークンを明示的な推論語彙に投影することで解釈可能性を提供し、ステップごとの可視化と診断を可能にする。
SIM-CoTは暗黙のCoT法のドメイン内精度と外部安定性の両方を著しく改善し、GPT-2では+8.2\%、LLaMA-3.1 8Bでは+3.0\%、CODIでは+8.2\%となる。
さらに、GPT-2のCoTベースラインを2.1\%、トークン効率を2.3$\times$で上回り、LLaMA-3.1 8Bのような大型モデルのパフォーマンスギャップを埋める。
コード:https://github.com/InternLM/SIM-CoT
関連論文リスト
- Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation [30.762815456866083]
自然言語CoTを連続空間に効果的に圧縮する新しいトレーニングフレームワークであるCODI(Continuous Chain-of-Thought via Self-Distillation)を紹介する。
CODI は GPT-2 スケールでの GSM8k 上での明示的な CoT のパフォーマンスに適合する最初の暗黙の CoT アプローチである。
論文 参考訳(メタデータ) (2025-02-28T14:07:48Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。