論文の概要: DART: Distilling Autoregressive Reasoning to Silent Thought
- arxiv url: http://arxiv.org/abs/2506.11752v1
- Date: Fri, 13 Jun 2025 13:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.797263
- Title: DART: Distilling Autoregressive Reasoning to Silent Thought
- Title(参考訳): DART:無秩序な思考に自己回帰的推論を蒸留
- Authors: Nan Jiang, Ziming Wu, De-Chuan Zhan, Fuming Lai, Shaobing Lian,
- Abstract要約: CoT(Chain-of-Thought)推論は、複雑なタスクの解決において、LLM(Large Language Models)が大幅に進歩している。
自己回帰的 CoT を非自己回帰的 Silent Thought (ST) に置き換えるための textbfDART (textbf Autoregressive textbfReasoning to Silent textbfThought) を提案する。
- 参考スコア(独自算出の注目度): 38.187149905010976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) reasoning has significantly advanced Large Language Models (LLMs) in solving complex tasks. However, its autoregressive paradigm leads to significant computational overhead, hindering its deployment in latency-sensitive applications. To address this, we propose \textbf{DART} (\textbf{D}istilling \textbf{A}utoregressive \textbf{R}easoning to Silent \textbf{T}hought), a self-distillation framework that enables LLMs to replace autoregressive CoT with non-autoregressive Silent Thought (ST). Specifically, DART introduces two training pathways: the CoT pathway for traditional reasoning and the ST pathway for generating answers directly from a few ST tokens. The ST pathway utilizes a lightweight Reasoning Evolvement Module (REM) to align its hidden states with the CoT pathway, enabling the ST tokens to evolve into informative embeddings. During inference, only the ST pathway is activated, leveraging evolving ST tokens to deliver the answer directly. Extensive experimental results demonstrate that DART achieves comparable reasoning performance to existing baselines while offering significant efficiency gains, serving as a feasible alternative for efficient reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、複雑なタスクの解決において、LLM(Large Language Models)が大幅に進歩している。
しかし、その自己回帰パラダイムは計算オーバーヘッドを大幅に増加させ、レイテンシに敏感なアプリケーションへのデプロイを妨げている。
これを解決するために, LLM が自己回帰的 CoT を非自己回帰的 Silent Thought (ST) に置き換えることができる自己蒸留フレームワークである textbf{DART} (\textbf{D}istilling \textbf{A}utoregressive \textbf{R}easoning to Silent \textbf{T}hought) を提案する。
具体的には、従来の推論のためのCoT経路と、いくつかのSTトークンから直接回答を生成するST経路の2つの訓練経路を導入する。
ST経路は軽量のReasoning Evolvement Module (REM) を利用して隠れた状態をCoT経路と整列させ、STトークンを情報埋め込みへと進化させる。
推論中、ST経路のみが活性化され、STトークンの進化を利用して直接答えを提供する。
大規模な実験結果から、DARTは既存のベースラインに匹敵する推論性能を達成し、高い効率向上を実現し、効率的な推論の代替手段として有効であることが示された。
関連論文リスト
- TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval [35.86480813138274]
Universal Multimodal Retrievalは、多様なユーザ意図を解釈できる統合埋め込みモデルを必要とする。
TRACE(Task-adaptive Reasoning and Embeddings)を紹介する。
TRACEは、生成的推論を識別的表現学習と統合する。
論文 参考訳(メタデータ) (2026-03-03T12:36:39Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Efficient and Stable Reinforcement Learning for Diffusion Language Models [59.75789436018925]
拡散型大規模言語モデル(dLLM)の複雑な推論能力を解き放つには強化学習(RL)が不可欠である
dLLMの適用は、効率と安定性において、ユニークな課題に直面します。
本稿では,dLLMに対するRLの効率性と安定性を同時に向上するフレームワークであるスポース・テンポラル・プルーニング(STP)を提案する。
論文 参考訳(メタデータ) (2026-02-09T17:04:23Z) - Latent-Space Contrastive Reinforcement Learning for Stable and Efficient LLM Reasoning [16.244366307890832]
textbfDeepLatent Reasoning(DLR)を提案する。
このフレームワークは、試行錯誤コストを、高価なトークンレベルのフルシーケンス生成から連続潜在多様体へシフトさせる。
実験により、DLRはより安定した訓練収束を実現し、より長い水平推論チェーンをサポートし、推論能力の持続的な蓄積を促進することが示されている。
論文 参考訳(メタデータ) (2026-01-24T03:18:22Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - Prototype-Based Dynamic Steering for Large Language Models [3.90727941420584]
Prototype-Based Dynamic Steering (PDS) は、命令の追加や変更なしに大きな言語モデル(LLM)推論を増幅するテスト時メソッドである。
本稿では,CoT (Chain-of-Thought) と中性プロンプトのクラスタリングアクティベーション差による「推論プロトタイプ」を提案する。
PDSは微調整やプロンプトエンジニアリングなしで精度を継続的に改善する。
論文 参考訳(メタデータ) (2025-10-07T01:34:28Z) - SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning [45.09671059003642]
マルチターンTIRトレーニングを安定化するプラグイン・アンド・プレイアルゴリズムであるSimpleTIRを導入する。
特に AIME24 のスコアをテキストのみのベースラインから 50.5 に高めている。
論文 参考訳(メタデータ) (2025-09-02T16:30:19Z) - RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning [10.797460135169763]
Supervised Fine-Tuning (SFT) は、注釈の結果にのみ焦点を合わせ、基礎となる根拠を無視している。
Visual-RFT(Visual Reinforcement Fine-Tuning)は、事前トレーニング中に高品質で検証されたCoTが欠如していることから、不整合性思考鎖(CoT)を生成する。
RISE(Reason-Inspire-Strengthen-Expertise)は,これらの制限を克服するための2段階のフレームワークである。
論文 参考訳(メタデータ) (2025-08-17T17:24:35Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning [48.28847964704554]
テスト時間スケーリング(TTS)とは、推論中に余分な計算を割り当てることで推論性能を向上させる手法である。
CoconutとSoftCoTの最近の研究は、連続的な潜在空間における思考が推論性能をさらに向上させることを示した。
我々はSoftCoT++を導入して,SoftCoTをTest-Time Scalingパラダイムに拡張し,多様な思考経路の探索を可能にする。
論文 参考訳(メタデータ) (2025-05-16T17:47:50Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models [62.12031550252253]
本稿では,関係推論に対処するための新しいフレームワークであるPath-of-Thoughts(PoT)を提案する。
PoTは、問題コンテキスト内の重要なエンティティ、関係、属性を識別するタスクに依存しないグラフを効率的に抽出する。
PoTは、提案された質問に対応するグラフ内の関連する推論連鎖を特定し、潜在的な答えの推論を容易にする。
論文 参考訳(メタデータ) (2024-12-23T20:27:12Z) - Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。
我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。
実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-30T06:32:11Z) - Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。
復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。