論文の概要: Concise Reasoning in the Lens of Lagrangian Optimization
- arxiv url: http://arxiv.org/abs/2510.10168v2
- Date: Tue, 14 Oct 2025 06:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 12:06:24.253977
- Title: Concise Reasoning in the Lens of Lagrangian Optimization
- Title(参考訳): ラグランジュ最適化レンズにおける簡潔推論
- Authors: Chengqian Gao, Haonan Li, Taylor W. Killian, Jianshu She, Renxi Wang, Liqun Ma, Zhoujun Cheng, Shibo Hao, Zhiqiang Xu,
- Abstract要約: 本稿では,PALU(Principald Strategy, Performance-Aware length update)を導入する。
原理的アルゴリズムとして、PALUは制約付き最適化問題として簡潔推論を定式化する。
PALUは、DeepSeek-Distill-Qwen-1.5Bに適用すると、出力長を65%削減し、精度を15%向上させる。
- 参考スコア(独自算出の注目度): 15.851695603857735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concise reasoning in large language models seeks to generate only essential intermediate steps needed to arrive at a final answer, thereby alleviating issues of overthinking. Most proposed approaches hinge on carefully hand-crafted heuristics, struggling to balance concision with performance, often failing to adapt across domains and model scales. In this work, we address these challenges by introducing a principled and pragmatic strategy, performance-aware length updating (PALU). As a principled algorithm, PALU formulates concise reasoning as a constrained optimization problem, minimizing response length subject to a performance constraint, and then applies Lagrangian optimization to convert it into a tractable unconstrained problem. As a pragmatic solution, PALU streamlines complicated update rules through three approximations: (i) estimating performance with off-policy rollouts, (ii) truncating the Lagrange multiplier to two extremes, and (iii) replacing gradient-based updates with quantile-driven length adjustments. PALU reduces output length by 65% while improving accuracy by 15% when applied to DeepSeek-Distill-Qwen-1.5B, averaged over five benchmarks, outperforming a range of alternative methods. Furthermore, PALU is demonstrated to adapt across both domain (logic, STEM and math) and model scale (1.5B, 7B, 14B) entrenching the algorithm as a practical and effective concise reasoning approach.
- Abstract(参考訳): 大規模言語モデルにおける簡潔な推論は、最終回答に到達するために必要な重要な中間ステップのみを生成し、過度に考える問題を緩和しようとする。
提案されているほとんどのアプローチは、慎重に手作りのヒューリスティックにヒンジし、精度とパフォーマンスのバランスを取れず、ドメインやモデルスケールに適応できないことが多い。
本研究では,これらの課題に対して,原則的かつ実践的な戦略,パフォーマンスに配慮した長さ更新(PALU)を導入することで対処する。
原理的アルゴリズムとして、PALUは制約付き最適化問題として簡潔推論を定式化し、性能制約を受ける応答長を最小化し、ラグランジアン最適化を適用してトラクタブルな非制約問題に変換する。
実用的なソリューションとして、PALUは3つの近似を通して複雑な更新ルールを合理化する。
(i)オフ・ポリティクス・ロールアウトによる性能推定
(ii)ラグランジュ乗算器を2つの極小に切り離し、
(iii)勾配に基づく更新を量子駆動長調整に置き換える。
PALUは出力長を65%削減し、DeepSeek-Distill-Qwen-1.5Bに適用すると精度を15%向上させる。
さらに、PALUはドメイン(論理、STEM、数学)とモデルスケール(1.5B、7B、14B)の両方に適応し、アルゴリズムを実践的で効果的な簡潔な推論手法として定着させる。
関連論文リスト
- Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Iterative Interpolation Schedules for Quantum Approximate Optimization Algorithm [1.845978975395919]
本稿では,最適パラメータスケジュールの滑らかさを関数に基づいて表現することで,反復的手法を提案する。
提案手法は,現在の手法よりも少ない最適化ステップで性能の向上を実証する。
最大のLABSの場合、1000層を超えるスケジュールでほぼ最適のメリットを達成できます。
論文 参考訳(メタデータ) (2025-04-02T12:53:21Z) - InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models [44.27021281617822]
InftyThinkは、モノリシック推論を中間的な要約を伴う反復的なプロセスに変換するパラダイムである。
本手法では, 計算コストを抑えながら, 推理深度を推定できる。
論文 参考訳(メタデータ) (2025-03-09T16:59:14Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - A Stochastic Composite Augmented Lagrangian Method For Reinforcement
Learning [9.204659134755795]
深層強化学習のための線形プログラミング(LP)の定式化について検討する。
拡張ラグランジアン法は、LPの解法において二重サンプリング障害に悩まされる。
深層パラメタライズされたラグランジアン法を提案する。
論文 参考訳(メタデータ) (2021-05-20T13:08:06Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。