論文の概要: LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization
- arxiv url: http://arxiv.org/abs/2507.15758v1
- Date: Mon, 21 Jul 2025 16:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.474457
- Title: LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization
- Title(参考訳): LAPO:長さ適応型政策最適化による推論効率の内部化
- Authors: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang,
- Abstract要約: 本稿では,外部制約から固有モデル能力へ推論長制御を変換するフレームワークであるLongth-Adaptive Policy Optimization (LAPO)を提案する。
LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。
数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
- 参考スコア(独自算出の注目度): 48.91511514636768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models have achieved remarkable performance through extended chain-of-thought sequences, yet this computational freedom leads to excessive token generation even for simple problems. We present Length-Adaptive Policy Optimization (LAPO), a novel framework that transforms reasoning length control from an external constraint into an intrinsic model capability. Unlike existing approaches that impose rigid limits or rely on post-hoc interventions, LAPO enables models to internalize an understanding of appropriate reasoning depth through a two-stage reinforcement learning process. In the first stage, models learn natural reasoning patterns by discovering the statistical distribution of successful solution lengths. The second stage leverages these patterns as meta-cognitive guidance, embedding them directly within the model's reasoning context to ensure inference-time flexibility. Experiments on mathematical reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\% while improving accuracy by 2.3\%. Our analysis reveals that models trained with LAPO develop emergent abilities to allocate computational resources based on problem complexity, achieving efficient reasoning without sacrificing quality.
- Abstract(参考訳): 大規模な推論モデルは、チェーン・オブ・シークエンスの拡張によって顕著な性能を達成したが、この計算自由度は単純な問題であっても過剰なトークン生成をもたらす。
本稿では,推論長制御を外部制約から本質的なモデル能力に変換する新しいフレームワークであるLongth-Adaptive Policy Optimization (LAPO)を提案する。
厳密な制限を課す既存のアプローチと異なり、LAPOは2段階の強化学習プロセスを通じて適切な推論深度の理解をモデルが内部化できるようにする。
第一段階では、モデルが解長の統計的分布を発見し、自然な推論パターンを学習する。
第2段階ではこれらのパターンをメタ認知的ガイダンスとして活用し、推論時の柔軟性を確保するためにモデルの推論コンテキストに直接組み込む。
数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9\%削減し、精度を2.3\%改善している。
LAPOで学習したモデルでは,問題複雑度に基づいて計算資源を割り当て,品質を犠牲にすることなく効率的な推論が可能であることがわかった。
関連論文リスト
- Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは効率指向トレーニングにおける探索空間崩壊の課題に対処し、長い出力長の罰則を体系的に長い推論経路から遠ざける。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - The Role of Deductive and Inductive Reasoning in Large Language Models [35.43513487137371]
本稿では,大規模言語モデル(LLM)推論を強化するために,DID法を提案する。
DIDはリトルストーン次元と情報エントロピーを組み合わせた2次元複雑度評価システムを実装している。
その結果,推理精度と解の精度は有意に向上した。
論文 参考訳(メタデータ) (2024-10-03T18:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。