論文の概要: Bingo: Boosting Efficient Reasoning of LLMs via Dynamic and Significance-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.08125v1
- Date: Mon, 09 Jun 2025 18:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.36685
- Title: Bingo: Boosting Efficient Reasoning of LLMs via Dynamic and Significance-based Reinforcement Learning
- Title(参考訳): Bingo: 動的および重要度に基づく強化学習によるLLMの効率的な推論
- Authors: Hanbing Liu, Lang Cao, Yuanyi Ren, Mengyu Zhou, Haoyu Dong, Xiaojun Ma, Shi Han, Dongmei Zhang,
- Abstract要約: 本稿では,RLフレームワークであるBingoを提案する。
Bingoには2つの重要なメカニズムが組み込まれており、重要でないトークンだけを減らすためにモデルを徐々にガイドし、動的長の報酬は最初は難しい質問に対する精巧な推論を奨励するが、全体的な効率を改善するために時間の経過とともに減衰する。
- 参考スコア(独自算出の注目度): 43.61454825995551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated impressive reasoning capabilities, yet they often suffer from inefficiencies due to unnecessarily verbose or redundant outputs. While many works have explored reinforcement learning (RL) to enhance reasoning abilities, most primarily focus on improving accuracy, with limited attention to reasoning efficiency. Some existing approaches introduce direct length-based rewards to encourage brevity, but this often leads to noticeable drops in accuracy. In this paper, we propose Bingo, an RL framework that advances length-based reward design to boost efficient reasoning. Bingo incorporates two key mechanisms: a significance-aware length reward, which gradually guides the model to reduce only insignificant tokens, and a dynamic length reward, which initially encourages elaborate reasoning for hard questions but decays over time to improve overall efficiency. Experiments across multiple reasoning benchmarks show that Bingo improves both accuracy and efficiency. It outperforms the vanilla reward and several other length-based reward baselines in RL, achieving a favorable trade-off between accuracy and efficiency. These results underscore the potential of training LLMs explicitly for efficient reasoning.
- Abstract(参考訳): 大きな言語モデルは印象的な推論能力を示してきたが、冗長な出力や冗長な出力のためにしばしば非効率に悩まされる。
多くの研究が推論能力を高めるために強化学習(RL)を探求しているが、主に推論効率に限定した精度の向上に焦点を当てている。
既存のアプローチの中には、簡潔さを促進するために直接長さに基づく報酬を導入するものもあるが、これはしばしば顕著な精度の低下につながる。
本稿では,提案するRLフレームワークであるBingoを提案する。
Bingoには2つの重要なメカニズムが組み込まれており、重要でないトークンだけを減らすためにモデルを徐々にガイドし、動的長の報酬は最初は難しい質問に対する精巧な推論を奨励するが、全体的な効率を改善するために時間の経過とともに減衰する。
複数の推論ベンチマークによる実験では、Bingoは精度と効率の両方を改善している。
これは、バニラ報酬やRLの他の長さベースの報酬ベースラインよりも優れており、精度と効率のトレードオフを良好に達成している。
これらの結果は,LLMを効果的推論のために明示的に訓練する可能性を裏付けるものである。
関連論文リスト
- Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。