論文の概要: SIM-CoT: Supervised Implicit Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2509.20317v1
- Date: Wed, 24 Sep 2025 17:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.912446
- Title: SIM-CoT: Supervised Implicit Chain-of-Thought
- Title(参考訳): SIM-CoT:必需品の連鎖を監督
- Authors: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin,
- Abstract要約: Inlicit Chain-of-Thought(CoT)法は,大規模言語モデル(LLM)における明示的なCoT推論に代わる,有望かつトークン効率のよい代替手段を提供する
暗黙的なCoTアプローチの計算予算をスケールすることで、中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
- 参考スコア(独自算出の注目度): 108.30049193668083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit Chain-of-Thought (CoT) methods present a promising, token-efficient alternative to explicit CoT reasoning in Large Language Models (LLMs), but a persistent performance gap has limited the application of implicit CoT. We identify a core latent instability issue by scaling the computational budget of implicit CoT approaches: as we increase the number of implicit reasoning tokens to enhance performance, the training process often becomes unstable and collapses. Our analysis reveals that this instability arises from the latent representations becoming homogeneous and losing their semantic diversity, a failure caused by insufficient step-level supervision in existing implicit CoT approaches. To address this issue, we propose SIM-CoT, a plug-and-play training module that introduces step-level supervision to stabilize and enrich the latent reasoning space. Specifically, SIM-CoT employs an auxiliary decoder during training to align each implicit token with its corresponding explicit reasoning step, ensuring that latent states capture distinct and meaningful information. The proposed auxiliary decoder is removed during inference, preserving the computational efficiency of implicit CoT methods with no added overhead. In addition, the auxiliary decoder affords interpretability of implicit reasoning by projecting each latent token onto an explicit reasoning vocabulary, enabling per-step visualization of semantic roles and diagnosis. SIM-CoT significantly enhances both the in-domain accuracy and out-of-domain stability of various implicit CoT methods, boosting baselines like Coconut by +8.2% on GPT-2 and CODI by +3.0% on LLaMA-3.1 8B. Demonstrating strong scalability, SIM-CoT also surpasses the explicit CoT baseline on GPT-2 by 2.1% with 2.3\times greater token efficiency, while substantially closing the performance gap on larger models like LLaMA-3.1 8B.
- Abstract(参考訳): Inlicit Chain-of-Thought(CoT)メソッドは、LLM(Large Language Models)における明示的なCoT推論に代わる有望でトークン効率のよい代替手段を提供するが、持続的なパフォーマンスギャップは暗黙的なCoTの適用を制限する。
暗黙のCoTアプローチの計算予算をスケールすることで、中核的な不安定性の問題を特定します。パフォーマンスを高めるために暗黙の推論トークンの数を増やすにつれて、トレーニングプロセスは不安定になり、崩壊することが多いのです。
この不安定性は,既存の暗黙的CoTアプローチにおけるステップレベルの監督が不十分なため,非定常表現が均一になり,意味的多様性が失われることから生じる。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を提供する,プラグアンドプレイトレーニングモジュールである。
具体的には、SIM-CoTはトレーニング中に補助的なデコーダを使用して、各暗黙のトークンを対応する明示的な推論ステップと整合させ、潜在状態が識別され有意義な情報をキャプチャすることを保証する。
提案した補助デコーダは推論中に除去され,余分なオーバーヘッドを伴わない暗黙的CoT法の計算効率が保たれる。
さらに、補助デコーダは、各潜在トークンを明示的な推論語彙に投影することにより、暗黙的推論の解釈可能性を提供し、意味的役割と診断のステップごとの可視化を可能にする。
SIM-CoTは様々な暗黙のCoT法のドメイン内精度と外部安定性の両方を著しく向上させ、ココナッツのようなベースラインをGPT-2で+8.2%、CODIを+3.0%、LLaMA-3.1 8Bで+3.0%向上させた。
強力なスケーラビリティを示すために、SIM-CoTはGPT-2のCoTベースラインを2.1%上回り、トークン効率は2.3倍に向上した。
関連論文リスト
- Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation [30.762815456866083]
自然言語CoTを連続空間に効果的に圧縮する新しいトレーニングフレームワークであるCODI(Continuous Chain-of-Thought via Self-Distillation)を紹介する。
CODI は GPT-2 スケールでの GSM8k 上での明示的な CoT のパフォーマンスに適合する最初の暗黙の CoT アプローチである。
論文 参考訳(メタデータ) (2025-02-28T14:07:48Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。