論文の概要: Training Large Reasoning Models Efficiently via Progressive Thought Encoding
- arxiv url: http://arxiv.org/abs/2602.16839v1
- Date: Wed, 18 Feb 2026 20:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.326239
- Title: Training Large Reasoning Models Efficiently via Progressive Thought Encoding
- Title(参考訳): 進歩的思考符号化による大規模推論モデルの訓練
- Authors: Zeliang Zhang, Xiaodong Liu, Hao Cheng, Hao Sun, Chenliang Xu, Jianfeng Gao,
- Abstract要約: 大規模推論モデル(LRM)は複雑な問題に優れるが、効率にとって重要な障壁に直面している。
本稿では,パラメータ効率のよい微調整手法であるProgressive Thoughtを紹介する。
- 参考スコア(独自算出の注目度): 63.254758972725654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) excel on complex problems but face a critical barrier to efficiency: reinforcement learning (RL) training requires long rollouts for outcome-based rewards, where autoregressive decoding dominates time and memory usage. While sliding-window cache strategies can bound memory, they disrupt long-context reasoning and degrade performance. We introduce Progressive Thought Encoding, a parameter-efficient fine-tuning method that enables LRMs to reason effectively under fixed-size caches. By progressively encoding intermediate reasoning into fixed-size vector representations, our approach eliminates the need to backpropagate through full-cache rollouts, thereby reducing memory usage, while maintaining constant memory during inference. Experiments on three models, including Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, and DeepSeek-R1-Distill-Llama-8B, on six widely used challenging mathematical benchmarks show consistent gains: our method achieves +19.3% improvement over LoRA-based fine-tuning and +29.9% over LRMs without fine-tuning on average, with up to +23.4 accuracy improvement on AIME2024/2025 under the same tight cache budgets. These results demonstrate that Progressive Thought Encoding not only improves reasoning accuracy but also makes RL training of LRMs substantially more efficient and scalable under real-world memory constraints.
- Abstract(参考訳): 強化学習(RL)トレーニングでは、自動回帰復号が時間とメモリ使用量を支配している結果に基づく報酬に対して、長時間のロールアウトが必要となる。
スライディングウィンドウキャッシュ戦略はメモリをバウンドできるが、長期コンテキスト推論を妨害し、性能を低下させる。
本稿では,パラメータ効率のよい微調整手法であるProgressive Thought Encodingを導入する。
中間的推論を固定サイズのベクトル表現に段階的に符号化することにより、本手法ではフルキャッシュのロールアウトによるバックプロパゲートの必要性を排除し、推論中に一定メモリを維持しながらメモリ使用量を削減できる。
Qwen2.5-3B-Instruct、Qwen2.5-7B-Instruct、DeepSeek-R1-Distill-Llama-8Bを含む3つのモデルに対する実験は、広く使われている6つの挑戦的数学ベンチマークにおいて、一貫した利得を示している。
これらの結果から,プログレッシブ・ソート・エンコーディングは推論精度を向上するだけでなく,実世界のメモリ制約下でのLEMのRLトレーニングを大幅に効率化し,スケーラブルにすることを示した。
関連論文リスト
- Efficient Reasoning via Reward Model [24.105621725286497]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)の推論能力を高めることが示されている。
DeepSeek-R1 や OpenAI o1 のような LRM は、過剰または無関係な推論ステップを含む冗長な応答をしばしば生成する。
本稿では,結果報酬と簡潔度スコアとの間に明確な依存性を有する,CRF(Conciseness Reward Function)という新たな報酬定式化を導入する。
論文 参考訳(メタデータ) (2025-11-12T09:51:07Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - MemShare: Memory Efficient Inference for Large Reasoning Models through KV Cache Reuse [14.695547830142516]
大規模推論モデル(LRM)は数学的推論や形式論理のタスクにおいて大きな進歩を遂げた。
長い連鎖配列を生成する傾向は、推論中にかなりのメモリオーバーヘッドを引き起こす。
メモリオーバーヘッドを効果的に低減する新しいKVキャッシュ管理手法であるMemShareを提案する。
論文 参考訳(メタデータ) (2025-07-29T02:05:51Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。