論文の概要: Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
- arxiv url: http://arxiv.org/abs/2505.15612v1
- Date: Wed, 21 May 2025 15:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.717245
- Title: Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
- Title(参考訳): 適応長に基づく逆方向整形法を効果的に学習する
- Authors: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He,
- Abstract要約: 大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 23.626013831589212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have shown remarkable capabilities in solving complex problems through reinforcement learning (RL), particularly by generating long reasoning traces. However, these extended outputs often exhibit substantial redundancy, which limits the efficiency of LRMs. In this paper, we investigate RL-based approaches to promote reasoning efficiency. Specifically, we first present a unified framework that formulates various efficient reasoning methods through the lens of length-based reward shaping. Building on this perspective, we propose a novel Length-bAsed StEp Reward shaping method (LASER), which employs a step function as the reward, controlled by a target length. LASER surpasses previous methods, achieving a superior Pareto-optimal balance between performance and efficiency. Next, we further extend LASER based on two key intuitions: (1) The reasoning behavior of the model evolves during training, necessitating reward specifications that are also adaptive and dynamic; (2) Rather than uniformly encouraging shorter or longer chains of thought (CoT), we posit that length-based reward shaping should be difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries. This approach is expected to facilitate a combination of fast and slow thinking, leading to a better overall tradeoff. The resulting method is termed LASER-D (Dynamic and Difficulty-aware). Experiments on DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both reasoning performance and response length efficiency. For instance, LASER-D and its variant achieve a +6.1 improvement on AIME2024 while reducing token usage by 63%. Further analysis reveals our RL-based compression produces more concise reasoning patterns with less redundant "self-reflections". Resources are at https://github.com/hkust-nlp/Laser.
- Abstract(参考訳): 大規模推論モデル(LRM)は、強化学習(RL)、特に長い推論トレースを生成することで複雑な問題を解く際、顕著な能力を示した。
しかし、これらの拡張出力は、しばしばかなりの冗長性を示すため、LRMの効率は制限される。
本稿では,RLに基づく推論効率向上のためのアプローチについて検討する。
具体的には、まず、長さに基づく報酬形成のレンズを通して、様々な効率的な推論法を定式化する統一的な枠組みを提案する。
この観点から,目標長で制御されたステップ関数を報酬として利用する新しい長長bAsed StEp Reward Shaping法(LASER)を提案する。
LASERは従来の手法を超越し、性能と効率の最適なパレートを達成している。
次に、2つの重要な直観に基づいてLASERをさらに拡張する:(1)モデルの推論動作はトレーニング中に進化し、適応的かつダイナミックな報酬仕様を必要とする;(2)一様に長鎖や長鎖の思考(CoT)を奨励する代わりに、長さに基づく報酬の整形は困難である、すなわち、クエリを容易にするために、より長いCoTをペナルティ化するべきである、と仮定する。
このアプローチは、迅速な思考と遅い思考の組み合わせを促進することが期待され、全体的なトレードオフが改善される。
結果の方法はLASER-D(Dynamic and Difficulty-aware)と呼ばれる。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
例えば、LASER-Dとその変種はAIME2024で+6.1の改善を実現し、トークンの使用量を63%削減した。
さらに解析したところ、RLに基づく圧縮は、冗長な「自己回帰」の少ないより簡潔な推論パターンを生成することが明らかとなった。
リソースはhttps://github.com/hkust-nlp/Laserにある。
関連論文リスト
- Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately [29.018731931275138]
大規模言語モデル(LLM)は、所定の要求に応答するChain-of-Thought推論を生成することで、より優れた機能を得ることができる。
しかし,2つのスケーリング次元を取り入れた場合,システム効率は2つの理由から著しく低下する。
本稿では,効率的なLLM推論のためのサービスフレームワークであるSARTについて述べる。
論文 参考訳(メタデータ) (2025-05-19T16:34:56Z) - Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。