Fugu-MT 論文翻訳(概要): Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models

論文の概要: Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models

arxiv url: http://arxiv.org/abs/2505.21765v1
Date: Tue, 27 May 2025 20:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.293213
Title: Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models
Title（参考訳）: 長く考えるな, 微妙に考える - 大規模推論モデルのための思考ダイナミクスを最適化する
Authors: Sohyun An, Ruochen Wang, Tianyi Zhou, Cho-Jui Hsieh,
Abstract要約: 大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
参考スコア（独自算出の注目度）: 68.96619605651155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While recent success of large reasoning models (LRMs) significantly advanced LLMs' reasoning capability by optimizing the final answer accuracy using reinforcement learning, they may also drastically increase the output length due to overthinking, characterized by unnecessarily complex reasoning paths that waste computation and potentially degrade the performance. We hypothesize that such inefficiencies stem from LRMs' limited capability to dynamically select the proper modular reasoning strategies, termed thinking patterns at the right position. To investigate this hypothesis, we propose a dynamic optimization framework that segments model-generated reasoning paths into distinct thinking patterns, systematically identifying and promoting beneficial patterns that improve the answer while removing detrimental ones. Empirical analysis confirms that our optimized thinking paths yield more concise yet sufficiently informative trajectories, enhancing reasoning efficiency by reducing attention FLOPs by up to 47% while maintaining accuracy for originally correct responses. Moreover, a non-trivial portion of originally incorrect responses are transformed into correct ones, achieving a 15.6% accuracy improvement with reduced length. Motivated by the improvement brought by the optimized thinking paths, we apply a preference optimization technique supported by a pairwise dataset contrasting suboptimal and optimal reasoning paths. Experimental evaluations across multiple mathematical reasoning benchmarks reveal that our method notably reduces computational overhead while simultaneously improving reasoning accuracy, achieving up to a 12% accuracy improvement and reducing token usage from approximately 5,000 to 3,000 tokens.
Abstract（参考訳）: 大規模推論モデル(LRM)の最近の成功は、強化学習を用いて最終解の精度を最適化することでLLMの推論能力を大幅に向上させたが、計算を無駄にし、性能を低下させるような複雑な推論経路を特徴とする過度な考えによる出力長の大幅な向上も期待できる。このような非効率性は、正しい位置における思考パターンと呼ばれる適切なモジュラー推論戦略を動的に選択するLRMの限られた能力に由来すると仮定する。この仮説を考察するために、モデル生成推論経路を異なる思考パターンに分割し、有害なパターンを除去しながら、解答を改善する有益なパターンを体系的に同定し、促進する動的最適化フレームワークを提案する。経験的分析により、我々の最適化された思考経路はより簡潔で十分な情報的軌跡をもたらすことが確認され、本来正しい応答の精度を維持しつつ、注意FLOPを最大47%削減することで推論効率を向上させる。さらに、本来不正確な応答の非自明な部分が正しい応答に変換され、長さを小さくして15.6%の精度向上が達成される。最適化された思考経路によってもたらされる改善に触発され、最適と最適の推論経路とを対比したペアワイズデータセットによって支持される選好最適化手法を適用した。複数の数学的推論ベンチマークを用いて実験的に評価したところ,提案手法は計算オーバーヘッドを顕著に低減し,同時に推論精度を向上し,最大12%の精度向上を実現し,トークン使用量を約5,000から3,000トークンに短縮する。

関連論文リスト

Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文参考訳（メタデータ） (2025-08-04T00:58:56Z)
AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文参考訳（メタデータ） (2025-06-25T06:29:18Z)
Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。 LRM効率を向上させるための2つの軽量手法を提案する。まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文参考訳（メタデータ） (2025-06-18T17:18:12Z)
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [29.721108461390973]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。 PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文参考訳（メタデータ） (2025-05-25T15:17:57Z)
Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文参考訳（メタデータ） (2025-05-23T13:38:56Z)
Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning [27.498043430208085]
チェーン・オブ・ソート(CoT)推論への過剰依存はモデル性能を損なう可能性がある。我々はCAR(Adaptive Reasoning)を提案する。 CARは、モデルの難易度に基づいて、短い回答と長い形式の推論を切り替える。
論文参考訳（メタデータ） (2025-05-21T06:20:17Z)
Efficient RL Training for Reasoning Models via Length-Aware Optimization [108.88337262486819]
大規模推論モデルの強化学習プロセスに直接統合された3つの重要な報酬設計を提案する。本手法は, 性能を維持・改善しながら, 応答長を著しく低減する。
論文参考訳（メタデータ） (2025-05-18T07:46:43Z)
Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文参考訳（メタデータ） (2025-04-30T14:01:45Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。