論文の概要: Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts
- arxiv url: http://arxiv.org/abs/2510.07358v1
- Date: Wed, 08 Oct 2025 15:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.636968
- Title: Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts
- Title(参考訳): Encode, Think, Decode: 再帰的な潜在思想によるテスト時間推論のスケールアップ
- Authors: Yeskendir Koishekenov, Aldo Lipani, Nicola Cancedda,
- Abstract要約: Encode-Think-Decode (ETD) は、トレーニング中の推論関連レイヤの小さなサブセットを反復するようにトレーニングすることで、ベースモデルの推論能力を向上する手法である。
ETDモデルは、GSM8Kで+28.4%、OLMo-2 1Bベースモデルで+36%の相対精度の改善を含む17の推論ベンチマークで大幅に向上した。
- 参考スコア(独自算出の注目度): 19.518525241726916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most efforts to improve the reasoning capabilities of large language models (LLMs) involve either scaling the number of parameters and the size of training data, or scaling inference computation by letting models generate complex chains of thought. Motivated by interpretability studies showing that the crucial computation required for reasoning tasks is concentrated in a limited range of layers, we introduce Encode-Think-Decode (ETD), a method that enhances the reasoning capabilities of a base model by training it to iterate over a small subset of reasoning-relevant layers during the mid-training stage. ETD amplifies latent reasoning while preserving the original architecture, parameter count, hyperparameters, and training data composition. When iterating on the selected layers at inference time, ETD models yield substantial gains on 17 reasoning benchmarks, including +28.4% relative accuracy improvement on GSM8K and +36% on MATH with the OLMo-2 1B Base model. We also explore an adaptive depth strategy that adjusts the computation per input token. Our results show that recursive latent reasoning offers a simple and effective path to stronger LLM reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力を改善するためのほとんどの取り組みは、パラメータの数とトレーニングデータのサイズをスケーリングすること、あるいはモデルが複雑な思考連鎖を生成することによって推論計算をスケールすることである。
本研究では,タスクの推論に要する重要な計算が限られた層に集中していることを示す解釈可能性研究によって動機づけられたEncode-Think-Decode(ETD)を紹介した。
ETDは、オリジナルのアーキテクチャ、パラメータ数、ハイパーパラメータ、トレーニングデータ構成を維持しながら、遅延推論を増幅する。
推定時に選択したレイヤを反復すると、ETDモデルはGSM8Kの+28.4%、OLMo-2 1Bベースモデルの+36%を含む17の推論ベンチマークで大幅に向上した。
また、入力トークン毎の計算を調整する適応的な深さ戦略についても検討する。
以上の結果から,再帰的潜伏推論はLLM推論を強力にするための単純かつ効果的な経路であることがわかった。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。