論文の概要: Libra: Efficient Resource Management for Agentic RL Post-Training
- arxiv url: http://arxiv.org/abs/2606.03077v2
- Date: Wed, 10 Jun 2026 06:28:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.307014
- Title: Libra: Efficient Resource Management for Agentic RL Post-Training
- Title(参考訳): Libra: エージェントRLポストトライニングのための効率的な資源管理
- Authors: Kaiwen Chen, Xin Tan, Jingzong Li, Hong Xu,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)を有能なエージェントに変換するための訓練後の標準パラダイムとして登場した。
エージェントRLでは、ロールアウトステージはツールを呼び出しながら軌道を生成し、長い尾と静止しないワークロードを生成する。
両課題に対処するリソース管理システムLibraについて,2つのコアメカニズムを用いて紹介する。
- 参考スコア(独自算出の注目度): 11.701871372256205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as a standard post-training paradigm for shaping large language models (LLMs) into capable agents. In agentic RL, the rollout stage generates trajectories while invoking tools, producing long-tailed and non-stationary workloads that expose two fundamental challenges in resource management. First, due to the long-tail distribution, a small fraction of trajectories dominates rollout makespan. Second, rollout and training are subject to cross-stage imbalance, as they exhibit strong asymmetry in compute patterns, memory demands, and sensitivity to sequence length. Compounding this asymmetry, the sequence length distribution drifts continuously as the policy evolves, rendering any static resource split progressively suboptimal. We present Libra, a resource management system to address both challenges via two core mechanisms. The first is a global resource planner that jointly optimizes GPU allocation across rollout and training clusters. It leverages an elastic hybrid pool to enable lightweight, non-blocking worker reallocation between stages. The second is a causality-driven multi-level feedback queue (C-MLFQ) scheduler, which routes requests to heterogeneous rollout buckets based on causal signals derived from tool-return outcomes, rather than relying on fragile length predictions. Evaluated on 48 A800 GPUs, Libra achieves up to 3.0x higher throughput and converges up to 2.5x faster in reward compared to the baselines.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)を有能なエージェントに変換するための訓練後の標準パラダイムとして登場した。
エージェントRLでは、ロールアウトステージはツールを起動しながらトラジェクトリを生成し、リソース管理における2つの根本的な課題を明らかにする長い尾と非定常のワークロードを生成する。
第一に、長い尾の分布のため、少数の軌道がロールアウト・メースパンを支配している。
第二に、ロールアウトとトレーニングは、計算パターン、メモリ要求、シーケンス長に対する感度において強い非対称性を示すため、段階的不均衡の対象となる。
この非対称性を合成して、シーケンス長分布はポリシーが進化するにつれて連続的にドリフトし、静的リソースは徐々に準最適に分裂する。
両課題に対処するリソース管理システムLibraについて,2つのコアメカニズムを用いて紹介する。
ひとつはグローバルリソースプランナで、ロールアウトとトレーニングクラスタ間のGPUアロケーションを共同で最適化する。
弾力性のあるハイブリッドプールを活用して、ステージ間の軽量でノンブロッキングなワーカー再配置を可能にする。
2つ目は因果性駆動型マルチレベルフィードバックキュー(C-MLFQ)スケジューラで、脆弱な長さ予測に頼るのではなく、ツール-リターン結果から導かれる因果信号に基づいて、要求を異種ロールアウトバケットにルーティングする。
48 A800 GPUで評価すると、Libraはスループットを最大3.0倍に向上し、ベースラインに比べて最大2.5倍高速に収束する。
関連論文リスト
- SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。
SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。
LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T16:48:31Z) - ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning [15.912431502064678]
ARL-Tangramは、きめ細かい外部リソース共有と弾力性を実現する統一されたリソース管理システムである。
ARL-Tangramは平均ACTを最大4.3$times$で改善し、RLトレーニングのステップ期間を1.5$times$で高速化し、外部リソースを最大71.2$%$で節約する。
論文 参考訳(メタデータ) (2026-03-13T14:25:20Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - EARL: Efficient Agentic Reinforcement Learning Systems for Large Language Models [10.372430331898608]
強化学習(RL)は,大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素となっている。
本稿では,効率的なエージェントRLのためのスケーラブルなシステムEARLを提案する。
論文 参考訳(メタデータ) (2025-10-07T13:52:51Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。