論文の概要: Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards
- arxiv url: http://arxiv.org/abs/2505.18298v1
- Date: Fri, 23 May 2025 18:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.331036
- Title: Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards
- Title(参考訳): 素早く、正しく考える - 適応的リワードによる正確性と推論長のバランシング
- Authors: Jinyan Su, Claire Cardie,
- Abstract要約: 大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
- 参考スコア(独自算出の注目度): 17.829990749622496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong reasoning abilities in mathematical tasks, often enhanced through reinforcement learning (RL). However, RL-trained models frequently produce unnecessarily long reasoning traces -- even for simple queries -- leading to increased inference costs and latency. While recent approaches attempt to control verbosity by adding length penalties to the reward function, these methods rely on fixed penalty terms that are hard to tune and cannot adapt as the model's reasoning capability evolves, limiting their effectiveness. In this work, we propose an adaptive reward-shaping method that enables LLMs to "think fast and right" -- producing concise outputs without sacrificing correctness. Our method dynamically adjusts the reward trade-off between accuracy and response length based on model performance: when accuracy is high, the length penalty increases to encourage faster length reduction; when accuracy drops, the penalty is relaxed to preserve correctness. This adaptive reward accelerates early-stage length reduction while avoiding over-compression in later stages. Experiments across multiple datasets show that our approach consistently and dramatically reduces reasoning length while largely maintaining accuracy, offering a new direction for cost-efficient adaptive reasoning in large-scale language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学的なタスクにおいて強力な推論能力を示しており、しばしば強化学習(RL)によって強化されている。
しかしながら、RLでトレーニングされたモデルは、単純なクエリであっても、必要以上に長い推論トレースを生成するため、推論コストとレイテンシが増加する。
近年のアプローチでは、報酬関数に長さのペナルティを加えることで冗長性を制御しようとするが、これらの手法は、調整が困難で、モデルの推論能力が進化するにつれて適応できない固定されたペナルティ項に依存し、その効果を制限している。
そこで本研究では,LLMを「高速かつ正しく考える」ための適応的な報酬形成手法を提案し,精度を犠牲にすることなく簡潔な出力を生成する。
本手法は,モデル性能に基づいて,精度と応答長との報酬トレードオフを動的に調整する。精度が高くなると,長さのペナルティが増加し,より高速な長さ削減が可能となり,精度が低下するとペナルティは緩和され,精度が保たれる。
この適応報酬は、後段の過圧縮を回避しながら、初期長の短縮を加速する。
複数のデータセットにまたがる実験により、我々のアプローチは、大規模言語モデルにおいてコスト効率のよい適応推論のための新しい方向を提供するとともに、ほぼ精度を保ちながら推論の長さを一貫して劇的に短縮することを示した。
関連論文リスト
- Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。