論文の概要: Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.21581v1
- Date: Wed, 26 Nov 2025 16:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.20925
- Title: Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning
- Title(参考訳): いつ立ち止まるかを学ぶ:強化学習による適応的潜在推論
- Authors: Alex Ning, Yen-Ling Kuo, Gabe Gomes,
- Abstract要約: 本研究では適応長潜時推論モデルを開発し,SFT後補強学習手法を提案する。
Llama 3.2 1BモデルとGSM8K-Augデータセットの実験では、合計推理長さが52%$ダウンし、精度にペナルティはない。
- 参考スコア(独自算出の注目度): 7.669927190506031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent reasoning represents a new development in Transformer language models that has shown potential in compressing reasoning lengths compared to chain-of-thought reasoning. By directly passing the information-rich previous final latent state into the next sequence, latent reasoning removes the restriction to human language tokens as the medium for reasoning. We develop adaptive-length latent reasoning models and introduce a post-SFT reinforcement-learning methodology to optimize latent reasoning length by minimizing reasoning length while maintaining accuracy. This, in turn, further reduces compute usage and raises the bar on the compressive capabilities of latent reasoning models. Experiments on the Llama 3.2 1B model and the GSM8K-Aug dataset show a $52\%$ drop in total reasoning length with no penalty to accuracy. In future work, we plan to extend to additional models and datasets, analyze relationships between training coefficients, experiment with architecture variations, and continue our knowledge distillation for latent reasoning SFT efforts. We make our code and pretrained weights available at https://github.com/apning/adaptive-latent-reasoning.
- Abstract(参考訳): 潜在推論はトランスフォーマー言語モデルにおける新たな発展であり、連鎖推論と比較して推論長を圧縮する可能性を示している。
情報豊富な前の最終潜伏状態を直接次のシーケンスに渡すことにより、潜伏推論は推論の媒体として人間の言語トークンに対する制限を取り除く。
適応長遅延推論モデルを開発し、精度を維持しながら推論長を最小化し、遅延推論長を最適化するポストSFT強化学習手法を提案する。
これにより、計算使用量をさらに減らし、潜在推論モデルの圧縮能力を高めることができる。
Llama 3.2 1BモデルとGSM8K-Augデータセットの実験では、合計推理長が5,2\%低下し、精度に不利な結果が得られた。
今後の研究では、追加モデルやデータセットに拡張し、トレーニング係数間の関係を分析し、アーキテクチャのバリエーションを試行し、潜在的推論SFT努力のための知識蒸留を継続する予定である。
コードとトレーニング済みのウェイトはhttps://github.com/apning/adaptive-latent-reasoning.comで公開しています。
関連論文リスト
- Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors [45.578570554635775]
大規模言語モデル(LLM)は、思考の連鎖を拡大することによって、多段階の問題を解決する。
再帰的推論の断片を簡潔かつ再利用可能な「行動」に変換する簡単なメカニズムについて検討する。
これらの振る舞いは"振る舞いハンドブック"に格納され、推論時のモデルインコンテキストにそれらを供給するか、教師付き微調整によってパラメータに蒸留する。
論文 参考訳(メタデータ) (2025-09-16T16:44:26Z) - CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models [29.95434387343843]
本稿では,3つのコンポーネントによる長さバイアスを緩和する統合フレームワークを提案する。
CoLDは一貫して報酬長相関を減少させ、ステップ選択の精度を改善し、より簡潔で論理的に妥当な推論を促進する。
論文 参考訳(メタデータ) (2025-07-21T15:07:59Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - Do Larger Language Models Generalize Better? A Scaling Law for Implicit Reasoning at Pretraining Time [73.22651918134808]
この研究は、モデルサイズのスケーリングによる直感的効果を示し、言語モデル(LM)におけるスケーリングと推論の関係に関する新たな洞察を提供する。
我々は,実世界の大規模知識グラフの構造と分布を再現する合成暗黙のマルチホップ推論環境において,ゼロからLMを事前学習する。
次に、実世界の事前学習における暗黙的推論の単純化とみなすことができるマルチホップ推論を必要とする、グラフの欠落したエッジを完遂するLMの能力を評価する。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。