論文の概要: SIM-CoT: Supervised Implicit Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2509.20317v2
- Date: Thu, 25 Sep 2025 12:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.131772
- Title: SIM-CoT: Supervised Implicit Chain-of-Thought
- Title(参考訳): SIM-CoT:必需品の連鎖を監督
- Authors: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin,
- Abstract要約: Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
- 参考スコア(独自算出の注目度): 108.30049193668083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit Chain-of-Thought (CoT) methods offer a token-efficient alternative to explicit CoT reasoning in Large Language Models (LLMs), but a persistent performance gap has limited their adoption. We identify a core latent instability issue when scaling the computational budget of implicit CoT: as the number of reasoning tokens increases, training often becomes unstable and collapses. Our analysis shows that this instability arises from latent representations becoming homogeneous and losing semantic diversity, caused by insufficient step-level supervision in current implicit CoT methods. To address this, we propose SIM-CoT, a plug-and-play training module that introduces step-level supervision to stabilize and enrich the latent reasoning space. SIM-CoT employs an auxiliary decoder during training to align each implicit token with its corresponding explicit reasoning step, ensuring latent states capture distinct and meaningful information. The auxiliary decoder is removed at inference, preserving the efficiency of implicit CoT with no added overhead. It also provides interpretability by projecting each latent token onto an explicit reasoning vocabulary, enabling per-step visualization and diagnosis. SIM-CoT significantly improves both in-domain accuracy and out-of-domain stability of implicit CoT methods, boosting Coconut by +8.2\% on GPT-2 and CODI by +3.0\% on LLaMA-3.1 8B. It further surpasses the explicit CoT baseline on GPT-2 by 2.1\% with 2.3$\times$ greater token efficiency, while closing the performance gap on larger models like LLaMA-3.1 8B. Code: https://github.com/InternLM/SIM-CoT
- Abstract(参考訳): Implicit Chain-of-Thought(CoT)メソッドは、LLM(Large Language Models)における明示的なCoT推論に代わるトークン効率の代替手段を提供するが、持続的なパフォーマンスギャップは採用を制限している。
暗黙のCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
この不安定性は,現行の暗黙的CoT法ではステップレベルの監督が不十分なため,不均一な表現が均一になり,意味的多様性が失われることから生じる。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を提供する,プラグアンドプレイトレーニングモジュールである。
SIM-CoTはトレーニング中に補助的なデコーダを使用して、各暗黙のトークンを対応する明示的な推論ステップと整合させ、潜在状態が識別され有意義な情報をキャプチャすることを保証する。
補助デコーダは推論時に除去され、暗黙のCoTの効率をオーバーヘッドなしで維持する。
また、各潜在トークンを明示的な推論語彙に投影することで解釈可能性を提供し、ステップごとの可視化と診断を可能にする。
SIM-CoTは暗黙のCoT法のドメイン内精度と外部安定性の両方を著しく改善し、GPT-2では+8.2\%、LLaMA-3.1 8Bでは+3.0\%、CODIでは+8.2\%となる。
さらに、GPT-2のCoTベースラインを2.1\%、トークン効率を2.3$\times$で上回り、LLaMA-3.1 8Bのような大型モデルのパフォーマンスギャップを埋める。
コード:https://github.com/InternLM/SIM-CoT
関連論文リスト
- CoLT: Reasoning with Chain of Latent Tool Calls [31.228763375347608]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の推論能力を高める重要な手法である。
ツールコールとして潜伏推論を実装する新しいフレームワークである「CoLT」を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:12:53Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Autonomous Chain-of-Thought Distillation for Graph-Based Fraud Detection [73.9189065770752]
テキスト分散グラフ(TAG)上のグラフベースの不正検出には、リッチテキストセマンティクスとリレーショナル依存関係を共同でモデル化する必要がある。
我々は,自律型グラフ認識チェーン(CoT)推論とスケーラブルなLLM-GNN協調学習を通じて,TAGに基づく不正検出を促進する統一フレームワークであるFraudCoTを提案する。
論文 参考訳(メタデータ) (2026-01-30T13:12:12Z) - Chain Of Thought Compression: A Theoritical Analysis [24.613200477865572]
Chain-of-Thought (CoT)は、大規模言語モデルの高度な推論能力を解放した。
CoTは、余分なトークンの生成によって計算コストが禁止される。
最近の研究では、潜在状態への推論ステップの圧縮(暗黙のCoT圧縮)がトークン効率の代替となることが示されている。
論文 参考訳(メタデータ) (2026-01-29T11:42:03Z) - Do Latent Tokens Think? A Causal and Adversarial Analysis of Chain-of-Continuous-Thought [16.907732581097417]
我々は、明示的なCoT(Chain-of-Thought)よりも優れた効率と安定性を主張するCOCONUT(Chain-of-Continuous-Thought)に焦点を当てる。
CoTトークンとは異なり、COCONUTトークンはステアリングに対する最小限の感度を示し、推論クリティカルな情報を欠いている。
MMLUとHotpotQAの結果は、COCONUTが一貫してデータセットのアーティファクトを利用して、真の推論なしにベンチマークパフォーマンスを膨らませていることを示している。
論文 参考訳(メタデータ) (2025-12-25T15:14:53Z) - Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning [0.0]
CoTプロンプト(Chain-of-Thought)は、大規模言語モデルにおいて複雑な推論を可能にする重要なテクニックである。
LEASH: Logit-Entropy Adaptive Stopping Heuristicは,有理数生成を適応的に停止する学習自由復号アルゴリズムである。
論文 参考訳(メタデータ) (2025-11-06T18:43:16Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation [30.762815456866083]
自然言語CoTを連続空間に効果的に圧縮する新しいトレーニングフレームワークであるCODI(Continuous Chain-of-Thought via Self-Distillation)を紹介する。
CODI は GPT-2 スケールでの GSM8k 上での明示的な CoT のパフォーマンスに適合する最初の暗黙の CoT アプローチである。
論文 参考訳(メタデータ) (2025-02-28T14:07:48Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。