論文の概要: Efficient RL Training for Reasoning Models via Length-Aware Optimization
- arxiv url: http://arxiv.org/abs/2505.12284v1
- Date: Sun, 18 May 2025 07:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.142554
- Title: Efficient RL Training for Reasoning Models via Length-Aware Optimization
- Title(参考訳): 長さ認識最適化による推論モデルの効率的なRL学習
- Authors: Danlong Yuan, Tian Xie, Shaohan Huang, Zhuocheng Gong, Huishuai Zhang, Chong Luo, Furu Wei, Dongyan Zhao,
- Abstract要約: 大規模推論モデルの強化学習プロセスに直接統合された3つの重要な報酬設計を提案する。
本手法は, 性能を維持・改善しながら, 応答長を著しく低減する。
- 参考スコア(独自算出の注目度): 108.88337262486819
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large reasoning models, such as OpenAI o1 or DeepSeek R1, have demonstrated remarkable performance on reasoning tasks but often incur a long reasoning path with significant memory and time costs. Existing methods primarily aim to shorten reasoning paths by introducing additional training data and stages. In this paper, we propose three critical reward designs integrated directly into the reinforcement learning process of large reasoning models, which reduce the response length without extra training stages. Experiments on four settings show that our method significantly decreases response length while maintaining or even improving performance. Specifically, in a logic reasoning setting, we achieve a 40% reduction in response length averaged by steps alongside a 14% gain in performance. For math problems, we reduce response length averaged by steps by 33% while preserving performance.
- Abstract(参考訳): OpenAI o1やDeepSeek R1のような大規模な推論モデルは、推論タスクにおいて顕著なパフォーマンスを示してきたが、しばしば大きなメモリと時間コストを伴う長い推論パスを引き起こしている。
既存の手法は主に、追加のトレーニングデータとステージを導入することによって推論パスを短くすることを目的としている。
本稿では,大規模推論モデルの強化学習プロセスに直接組み込んだ3つの重要な報酬設計を提案する。
4つの設定で実験したところ,提案手法は性能を維持・改善しながら応答長を著しく減少させることがわかった。
具体的には、論理的推論設定において、14%の性能向上とともに、ステップごとの平均応答長を40%削減する。
数学問題では, 性能を保ちながら, 平均応答長を33%削減する。
関連論文リスト
- AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models [28.351652568849286]
本稿では,モデルの文脈長とトレーニングデータセットの複雑さが,R1-likeモデルのトレーニングプロセスにどのように影響するかを検討する。
本稿では,プログレッシブコンテキスト拡張戦略を備えたカリキュラム強化学習フレームワークであるFastCuRLを提案する。
論文 参考訳(メタデータ) (2025-03-21T16:35:31Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。