論文の概要: LACONIC: Length-Aware Constrained Reinforcement Learning for LLM
- arxiv url: http://arxiv.org/abs/2602.14468v1
- Date: Mon, 16 Feb 2026 05:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.153922
- Title: LACONIC: Length-Aware Constrained Reinforcement Learning for LLM
- Title(参考訳): LACONIC:LLMのための長さ制限付き強化学習
- Authors: Chang Liu, Yiran Zhao, Lawrence Liu, Yaoqi Ye, Csaba Szepesvári, Lin F. Yang,
- Abstract要約: LACONICは、訓練中に目標トークン予算を強制する強化学習手法である。
出力長を50%以上削減しながら、pass@1を保存または改善する。
一般的な知識と多言語ベンチマークのドメイン外でのパフォーマンスを維持し、トークンは44%減少している。
- 参考スコア(独自算出の注目度): 29.383977698780374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has enhanced the capabilities of large language models (LLMs) through reward-driven training. Nevertheless, this process can introduce excessively long responses, inflating inference latency and computational overhead. Prior length-control approaches typically rely on fixed heuristic reward shaping, which can misalign with the task objective and require brittle tuning. In this work, we propose LACONIC, a reinforcement learning method that enforces a target token budget during training. Specifically, we update policy models using an augmented objective that combines the task reward with a length-based cost. To balance brevity and task performance, the cost scale is adaptively adjusted throughout training. This yields robust length control while preserving task reward. We provide a theoretical guarantee that support the method. Across mathematical reasoning models and datasets, LACONIC preserves or improves pass@1 while reducing output length by over 50%. It maintains out-of-domain performance on general knowledge and multilingual benchmarks with 44% fewer tokens. Moreover, LACONIC integrates into standard RL-tuning with no inference changes and minimal deployment overhead.
- Abstract(参考訳): 強化学習(RL)は、報酬駆動トレーニングを通じて、大規模言語モデル(LLM)の機能を強化した。
それにもかかわらず、このプロセスは過度に長い応答を導入し、推論遅延と計算オーバーヘッドを膨らませる。
従来の長さ制御アプローチは、通常、固定されたヒューリスティックな報酬形成に依存しており、これはタスクの目的と誤認し、不安定なチューニングを必要とする。
本研究では,学習中に目標トークン予算を強制する強化学習手法であるLACONICを提案する。
具体的には、タスク報酬と長さベースのコストを組み合わせた拡張目標を用いてポリシーモデルを更新する。
簡潔さとタスクパフォーマンスのバランスをとるため、トレーニングを通してコストスケールを適応的に調整する。
これにより、タスク報酬を保持しながら、堅牢な長さ制御が得られる。
我々はその方法を支持する理論的保証を提供する。
数学的推論モデルとデータセット全体にわたって、LACONICはpass@1を保存または改善し、出力長を50%以上削減する。
一般的な知識と多言語ベンチマークのドメイン外でのパフォーマンスを維持し、トークンは44%減少している。
さらに、LACONICは推論変更がなく、デプロイメントオーバーヘッドが最小限である標準のRLチューニングに統合される。
関連論文リスト
- Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL [34.12869266614113]
トレーニングと推論の両方で標準の自己回帰復号を置き換える反復復号アルゴリズムであるRCを導入する。
RCは、LCMの応答生成と要約能力の間の非対称性を利用して、一貫して改善する推論連鎖を構築する。
16k-tokenのトレーニング予算を使って4BモデルをRCでトレーニングすると、テスト時に0.5mトークンでHMMT 2025のパフォーマンスが40%から70%近く向上する。
論文 参考訳(メタデータ) (2026-02-03T17:34:04Z) - CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs [31.371566320424552]
CoBA-RLは、モデルの進化能力に基づいて、ロールアウト予算を適応的に割り当てるように設計された強化学習アルゴリズムである。
我々のアプローチは、探索と搾取の間のトレードオフを効果的に編成し、一貫した一般化の改善を提供する。
論文 参考訳(メタデータ) (2026-02-03T03:14:36Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-08-12T13:48:03Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。