論文の概要: Just Enough Thinking: Efficient Reasoning with Adaptive Length Penalties Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.05256v2
- Date: Fri, 06 Jun 2025 02:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.092249
- Title: Just Enough Thinking: Efficient Reasoning with Adaptive Length Penalties Reinforcement Learning
- Title(参考訳): 十分な思考:適応長の罰則強化学習による効果的な推論
- Authors: Violet Xiang, Chase Blagden, Rafael Rafailov, Nathan Lile, Sang Truong, Chelsea Finn, Nick Haber,
- Abstract要約: ALPによるDeepScaleR-1.5Bのトレーニングは、パフォーマンスを著しく低下させることなく、平均トークン使用量を50%削減する。
固定予算と均一なペナルティ基準に対して、ALPは、簡単なプロンプトで計算をカットし、保存されたトークンを難しいものに再配置することで、予算の削減をよりインテリジェントに再分配する。
- 参考スコア(独自算出の注目度): 42.82825782517565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) achieve higher performance on challenging reasoning tasks by generating more tokens at inference time, but this verbosity often wastes computation on easy problems. Existing solutions, including supervised finetuning on shorter traces, user-controlled budgets, or RL with uniform penalties, either require data curation, manual configuration, or treat all problems alike regardless of difficulty. We introduce Adaptive Length Penalty (ALP), a reinforcement learning objective tailoring generation length to per-prompt solve rate. During training, ALP monitors each prompt's online solve rate through multiple rollouts and adds a differentiable penalty whose magnitude scales inversely with that rate, so confident (easy) prompts incur a high cost for extra tokens while hard prompts remain unhindered. Posttraining DeepScaleR-1.5B with ALP cuts average token usage by 50\% without significantly dropping performance. Relative to fixed-budget and uniform penalty baselines, ALP redistributes its reduced budget more intelligently by cutting compute on easy prompts and reallocating saved tokens to difficult ones, delivering higher accuracy on the hardest problems with higher cost.
- Abstract(参考訳): 大規模な推論モデル(LRM)は、推論時により多くのトークンを生成することで、難解な推論タスクにおいて高いパフォーマンスを達成するが、この冗長性はしばしば簡単な問題に対する計算を無駄にする。
従来のソリューションでは、短いトレースの教師付き微調整、ユーザ管理の予算、あるいは均一なペナルティを持つRLなどがあり、データキュレーション、手動構成、難易度に関わらず全ての問題を扱う必要がある。
適応長刑 (ALP) は, プロンプト毎の問題解決率に合わせた, 生成長を調整した強化学習目標である。
トレーニング中、ALPは複数のロールアウトを通じて各プロンプトのオンライン解決率を監視し、そのサイズが逆スケールする微分可能なペナルティを追加する。
ALPによるDeepScaleR-1.5Bのトレーニングは、パフォーマンスを著しく低下させることなく、平均トークン使用量を50%削減する。
固定予算と均一なペナルティベースラインとは対照的に、ALPは、簡単なプロンプトで計算をカットし、保存されたトークンを難しいものに再配置することで、よりインテリジェントに予算を再分配し、コストの高い最も難しい問題に対して高い精度を提供する。
関連論文リスト
- Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [61.823835392216544]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,RLの微調整時間を25%から65%削減し,GRPOアルゴリズムと同等の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:55:43Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting [23.004467211806467]
AdaCtrlは、難しい適応推論の予算配分をサポートする新しいフレームワークである。
自己評価問題難易度に基づいて推論長を動的に調整する。
AdaCtrlは、推論予算の正確なユーザコントロールを可能にし、特定のニーズを満たすように調整されたレスポンスを可能にする。
論文 参考訳(メタデータ) (2025-05-24T18:46:50Z) - Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [29.64638547097158]
SelfBudgeterは、効率的な推論のための自己適応的な制御可能な推論戦略である。
提案手法は, 出力長を削減しつつ, 精度を効果的に維持できる強化学習用GPROを提案する。
実験の結果、自己予算は問題複雑さに応じて合理的に予算を割り当てることができることが示された。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - Switching the Loss Reduces the Cost in Batch (Offline) Reinforcement Learning [57.154674117714265]
本稿では,FQI-log を用いた準最適政策の学習に必要なサンプル数と,最適政策の累積コストについて述べる。
我々は,FQI-logが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。
論文 参考訳(メタデータ) (2024-03-08T15:30:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。