論文の概要: How Far Are We from Optimal Reasoning Efficiency?
- arxiv url: http://arxiv.org/abs/2506.07104v1
- Date: Sun, 08 Jun 2025 12:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.672949
- Title: How Far Are We from Optimal Reasoning Efficiency?
- Title(参考訳): 最適な推論効率からどのくらい離れていますか?
- Authors: Jiaxuan Gao, Shu Yan, Qixin Tan, Lu Yang, Shusheng Xu, Wei Fu, Zhiyu Mei, Kaifeng Lyu, Yi Wu,
- Abstract要約: 大きな推論モデル (LRM) は、拡張されたチェーン・オブ・ソート (CoT) 推論を通じて、顕著な問題解決能力を示す。
LRMはしばしば冗長で冗長な推論トレースを生成する。
既存の微調整手法は推論効率を改善することを目的としているが、その効率性を評価することは依然として困難である。
- 参考スコア(独自算出の注目度): 22.726975408299822
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Reasoning Models (LRMs) demonstrate remarkable problem-solving capabilities through extended Chain-of-Thought (CoT) reasoning but often produce excessively verbose and redundant reasoning traces. This inefficiency incurs high inference costs and limits practical deployment. While existing fine-tuning methods aim to improve reasoning efficiency, assessing their efficiency gains remains challenging due to inconsistent evaluations. In this work, we introduce the reasoning efficiency frontiers, empirical upper bounds derived from fine-tuning base LRMs across diverse approaches and training configurations. Based on these frontiers, we propose the Reasoning Efficiency Gap (REG), a unified metric quantifying deviations of any fine-tuned LRMs from these frontiers. Systematic evaluation on challenging mathematical benchmarks reveals significant gaps in current methods: they either sacrifice accuracy for short length or still remain inefficient under tight token budgets. To reduce the efficiency gap, we propose REO-RL, a class of Reinforcement Learning algorithms that minimizes REG by targeting a sparse set of token budgets. Leveraging numerical integration over strategically selected budgets, REO-RL approximates the full efficiency objective with low error using a small set of token budgets. Through systematic benchmarking, we demonstrate that our efficiency metric, REG, effectively captures the accuracy-length trade-off, with low-REG methods reducing length while maintaining accuracy. Our approach, REO-RL, consistently reduces REG by >=50 across all evaluated LRMs and matching Qwen3-4B/8B efficiency frontiers under a 16K token budget with minimal accuracy loss. Ablation studies confirm the effectiveness of our exponential token budget strategy. Finally, our findings highlight that fine-tuning LRMs to perfectly align with the efficiency frontiers remains an open challenge.
- Abstract(参考訳): 大きな推論モデル(LRM)は、拡張されたチェーン・オブ・ソート(CoT)推論を通じて顕著な問題解決能力を示すが、しばしば過度に冗長で冗長な推論トレースを生成する。
この非効率性は高い推論コストを発生させ、実用的なデプロイメントを制限する。
既存の微調整手法は推論効率を向上させることを目的としているが、不整合評価のため、その効率向上を評価することは依然として困難である。
本研究では,多種多様なアプローチとトレーニング構成にまたがる微調整ベースLEMから導出した推論効率フロンティア,実証上界について紹介する。
これらのフロンティアに基づいて、これらのフロンティアからの微調整LEMの偏差を定量化する統一計量であるReasoning Efficiency Gap (REG)を提案する。
挑戦的な数学ベンチマークの体系的評価は、現在の手法において大きなギャップを生じさせる: 短い期間の精度を犠牲にするか、厳密なトークン予算の下では依然として非効率のままである。
効率ギャップを低減するために,トークン予算の少ない集合を対象とし,REGを最小化するReinforcement LearningアルゴリズムのクラスであるREO-RLを提案する。
戦略的に選択された予算に対する数値積分を利用して、REO-RLはトークン予算の小さなセットを用いて、完全な効率目標を低い誤差で近似する。
系統的なベンチマークにより,我々の効率指標であるREGが,精度を維持しながら長さを短縮し,精度のトレードオフを効果的に捉えることを示した。
提案手法であるREO-RLは、16Kトークンの予算で評価された全ての LRM とQwen3-4B/8B 効率フロンティアの整合性を最小限に抑えながら,REG を >=50 削減する。
アブレーション研究は、我々の指数的トークン予算戦略の有効性を裏付けるものである。
最後に、我々の発見は、効率フロンティアと完全に整合する微調整LEMが依然としてオープンな課題であることを示している。
関連論文リスト
- Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively [13.40488551654639]
本稿では,検索戦略の費用対効果を評価するために3E基準を導入する。
本稿では,既存の検索戦略とシームレスに統合するプラグイン・アンド・プレイ・フレームワークであるSpeculative Reward Model (SRM)を提案する。
実験の結果,RMは,有効性を保ちながら,従来の検索フレームワークの1/10までコストを削減できることがわかった。
論文 参考訳(メタデータ) (2025-05-31T05:32:12Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning [20.233873556056487]
大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を達成するが、しばしば冗長な推論のために過剰な計算オーバーヘッドを引き起こす。
本稿では、不必要な推論を抑え、暗黙の回復を可能にするフレームワークである適応自己回復推論(ASRR)を提案する。
本研究は, LRMの効率, 適応性, 安全性を高めるためのASRRの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-21T11:41:39Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead [24.611413814466978]
検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。
既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドが発生する。
そこで我々は,LLMの文脈認識をゼロ推論オーバーヘッドで向上する位置埋め込み非依存再重み付け(PEAR)を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:40:54Z) - Lower-Left Partial AUC: An Effective and Efficient Optimization Metric
for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。
LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T13:58:33Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。