論文の概要: LEAD: Length-Efficient Adaptive and Dynamic Reasoning for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.09806v1
- Date: Sun, 10 May 2026 23:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.427404
- Title: LEAD: Length-Efficient Adaptive and Dynamic Reasoning for Large Language Models
- Title(参考訳): LEAD:大規模言語モデルのための長長適応型動的推論
- Authors: Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li,
- Abstract要約: OpenAI o1やDeepSeek-R1のような大きな推論モデルは、推論能力が向上するにつれて、次第に冗長になりがちである。
これらの拡張されたChain-of-Length trajectories(CoT)は、根底にある問題、無駄な計算、レイテンシ、コンテキスト予算を超えることが多い。
静的をオンラインの自己適応機構に置き換える手法であるLEAD(Thought-Efficient Adaptive and Dynamic reasoning)を提案する。
- 参考スコア(独自算出の注目度): 24.128148876541783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models, such as OpenAI o1 and DeepSeek-R1, tend to become increasingly verbose as their reasoning capabilities improve. These inflated Chain-of-Thought (CoT) trajectories often exceed what the underlying problems require, wasting compute, latency, and context budgets. While introducing length-based efficiency rewards during reinforcement learning offers a natural remedy, existing methods struggle with two fundamental challenges: the optimal balance between correctness and efficiency is non-stationary throughout training, and intrinsic reasoning budgets vary drastically across problems. Relying on static reward weights and global length constraints inevitably forces a compromise between degraded accuracy and unrealized compression. To overcome these limitations, we propose LEAD (Length-Efficient Adaptive and Dynamic reasoning), a method that replaces static heuristics with online, self-adaptive mechanisms. LEAD dynamically calibrates the correctness-efficiency trade-off at each step using a Potential-Scaled Instability, directing optimization capacity to the most informative learning signal. Furthermore, it estimates an adaptive per-problem target length online based on the model's own correct rollouts, applying a symmetric efficiency reward that penalizes both overthinking and over-compression. Evaluated on five mathematical reasoning benchmarks, LEAD achieves the highest accuracy and Accuracy-Efficiency Score among RL-trained efficient-reasoning methods while producing substantially shorter outputs than the base model.
- Abstract(参考訳): OpenAI o1やDeepSeek-R1のような大きな推論モデルは、推論能力が向上するにつれて、次第に冗長になりがちである。
これらの膨張したChain-of-Thought(CoT)トラジェクトリは、根底にある問題、無駄な計算、レイテンシ、コンテキスト予算を超えることが多い。
強化学習中に長大な効率報酬を導入することは自然な効果をもたらすが、既存の手法ではトレーニングを通して正しさと効率の最適バランスは非定常的であり、本質的な推論予算は問題によって大きく異なるという2つの根本的な課題に直面する。
静的な報酬重みと大域的な長さの制約を考慮すれば、必然的に劣化した精度と非現実的な圧縮の妥協を迫られる。
これらの制約を克服するために,静的ヒューリスティックスをオンラインの自己適応機構に置き換えるLEAD(Length-Efficient Adaptive and Dynamic reasoning)を提案する。
LEADは、ポテンシャルスケールの不安定性を使用して各ステップの正確さと効率のトレードオフを動的に校正し、最適化能力を最も情報性の高い学習信号に向ける。
さらに、モデル自体の正しいロールアウトに基づいて、オンラインの適応的パープロブレムターゲット長を推定し、過度な考えと過剰な圧縮の両方を罰する対称効率報酬を適用した。
LEADは5つの数学的推論ベンチマークで評価され、RL訓練された効率的な推論手法の中で高い精度と精度・効率スコアを達成し、ベースモデルよりもかなり短い出力を生成する。
関連論文リスト
- Stabilizing Efficient Reasoning with Step-Level Advantage Selection [54.563811052329235]
我々は,長さを意識しない標準のGRPOを用いて,短文のポストトレーニング単独で,すでにかなりの推理圧縮を誘導していることを示す。
そこで本稿では, 適切なロールアウトにおける低信頼度ステップと, 検証済みロールアウトにおける高信頼度ステップにゼロアドバンテージを割り当てるステップレベルアドバンテージ選択(SAS)を提案する。
論文 参考訳(メタデータ) (2026-04-27T03:34:59Z) - Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation [14.501114943020589]
大規模推論モデル(LRM)は、拡張された推論トレースを通じて強力な性能を達成する。
LRMは低複雑さのクエリに対して過度な振る舞いを示すことが多い。
LRMにおける安定的適応的思考のための2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T02:49:36Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - DART: Difficulty-Adaptive Reasoning Truncation for Efficient Large Language Models [36.962276192354174]
textbfDARTは、問題の難易度に応じて思考長を調整する。
textbfTruncationフレームワークは、いつ考えるのをやめるかを学ぶ
論文 参考訳(メタデータ) (2025-11-03T02:41:20Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency in Large Language Models [38.225442399592936]
動的推論境界自己認識フレームワーク(DR. SAF)について紹介する。
DR.SAFは、境界自己認識アライメント、適応リワード管理、境界保存メカニズムの3つの重要なコンポーネントを統合している。
実験の結果, DR. SAFは全応答トークンの49.27%の削減を実現し, 精度は最小限であった。
論文 参考訳(メタデータ) (2025-08-15T16:40:29Z) - LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
長長適応ポリシー最適化は、理論的長さ制御を外部制約から本質的なモデル能力に変換する。
LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。
数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文 参考訳(メタデータ) (2025-07-21T16:14:41Z) - AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。