論文の概要: Fast on the Easy, Deep on the Hard: Efficient Reasoning via Powered Length Penalty
- arxiv url: http://arxiv.org/abs/2506.10446v1
- Date: Thu, 12 Jun 2025 07:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.636797
- Title: Fast on the Easy, Deep on the Hard: Efficient Reasoning via Powered Length Penalty
- Title(参考訳): 簡単でディープなハード:パワード・長さのペナルティによる効率的な推論
- Authors: Zehui Ling, Deshu Chen, Hongwei Zhang, Yifeng Jiao, Xin Guo, Yuan Cheng,
- Abstract要約: 本研究では,より単純な問題に対して簡潔性を促進することにより,大規模言語モデル(LLM)の効率を向上させることを目的とする。
我々は、報酬関数を分割し、出力長の新しいペナルティを含むことにより、モデルの推論効率を管理する。
提案手法はGSM8K, MATH500, AIME2024という3つのデータセットのベンチマーク評価において顕著な結果を得た。
- 参考スコア(独自算出の注目度): 13.843606627539597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated significant advancements in reasoning capabilities, performing well on various challenging benchmarks. Techniques like Chain-of-Thought prompting have been introduced to further improve reasoning. However, these approaches frequently generate longer outputs, which in turn increase computational latency. Although some methods use reinforcement learning to shorten reasoning, they often apply uniform penalties without considering the problem's complexity, leading to suboptimal outcomes. In this study, we seek to enhance the efficiency of LLM reasoning by promoting conciseness for simpler problems while preserving sufficient reasoning for more complex ones for accuracy, thus improving the model's overall performance. Specifically, we manage the model's reasoning efficiency by dividing the reward function and including a novel penalty for output length. Our approach has yielded impressive outcomes in benchmark evaluations across three datasets: GSM8K, MATH500, and AIME2024. For the comparatively simpler datasets GSM8K and MATH500, our method has effectively shortened output lengths while preserving or enhancing accuracy. On the more demanding AIME2024 dataset, our approach has resulted in improved accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論能力に大きな進歩を示し、様々な挑戦的なベンチマークでうまく機能している。
推論をさらに改善するために、Chain-of-Thoughtプロンプトのような技術が導入されている。
しかし、これらのアプローチはしばしばより長い出力を生成し、結果として計算遅延が増加する。
強化学習を用いて推論を短縮する手法もあるが、問題の複雑さを考慮せずに均一な罰則を適用することが多く、最適以下の結果をもたらす。
本研究では,より単純な問題に対する簡潔さを向上し,より複雑な問題に対する十分な推論を保ち,モデル全体の性能を向上させることにより,LCM推論の効率を向上させることを目的とする。
具体的には、報酬関数を分割し、出力長の新しいペナルティを含むことにより、モデルの推論効率を管理する。
提案手法はGSM8K, MATH500, AIME2024という3つのデータセットのベンチマーク評価において顕著な結果を得た。
比較的単純なデータセット GSM8K と MATH500 に対して,提案手法は精度を保ったり向上させたりしながら,出力長を効果的に短縮する。
より要求の高いAIME2024データセットでは、我々のアプローチは精度を向上した。
関連論文リスト
- ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization [16.51303604678232]
Reasoning Compression ThroUgh Stepwise Trials (ReCUT) は推論軌道の精度と長さのバランスをとるための新しい手法である。
複数の数学推論データセットとバックボーンモデルによる実験結果から、ReCUTは推論の長さを約30~50%削減することが示された。
論文 参考訳(メタデータ) (2025-06-12T15:43:01Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [75.81611837629764]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models [14.403953640255823]
強化学習フレームワークに報酬信号として用いられる新しいスコアを導入し、モデルが正確かつ簡潔な推論トレースを生成するよう誘導する。
このスコアは、ジャッジとして機能する大きな言語モデルによって評価され、単純なトークン長を超えて動的でコンテキスト対応のフィードバックを可能にする。
提案手法は,MATHデータセット上での最先端の効率・正確性トレードオフを実現し,簡単な問題ではトークン使用率を最大31倍に削減し,精度を7%向上させるとともに,最も難しい問題では,トークン使用率を最大3.6倍に抑えながら,完全な推論を+7.5%向上させる。
論文 参考訳(メタデータ) (2025-05-22T19:56:35Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。