論文の概要: ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.13019v1
- Date: Fri, 13 Mar 2026 14:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.112428
- Title: ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning
- Title(参考訳): ARL-Tangram: エージェント強化学習における資源効率の解放
- Authors: Bangjun Xiao, Yihao Zhao, Xiangwei Deng, Shihua Yu, Yuxing Xiang, Huaqiu Liu, Qiying Wang, Liang Zhao, Hailin Zhang, Xuanzhe Liu, Xin Jin, Fuli Luo,
- Abstract要約: ARL-Tangramは、きめ細かい外部リソース共有と弾力性を実現する統一されたリソース管理システムである。
ARL-Tangramは平均ACTを最大4.3$times$で改善し、RLトレーニングのステップ期間を1.5$times$で高速化し、外部リソースを最大71.2$%$で節約する。
- 参考スコア(独自算出の注目度): 15.912431502064678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic reinforcement learning (RL) has emerged as a transformative workload in cloud clusters, enabling large language models (LLMs) to solve complex problems through interactions with real world. However, unlike traditional RL, agentic RL demands substantial external cloud resources, e.g., CPUs for code execution and GPUs for reward models, that exist outside the primary training cluster. Existing agentic RL framework typically rely on static over-provisioning, i.e., resources are often tied to long-lived trajectories or isolated by tasks, which leads to severe resource inefficiency. We propose the action-level orchestration, and incorporate it into ARL-Tangram, a unified resource management system that enables fine-grained external resource sharing and elasticity. ARL-Tangram utilizes a unified action-level formulation and an elastic scheduling algorithm to minimize action completion time (ACT) while satisfying heterogeneous resource constraints. Further, heterogeneous resource managers are tailored to efficiently support the action-level execution on resources with heterogeneous characteristics and topologies. Evaluation on real-world agentic RL tasks demonstrates that ARL-Tangram improves average ACT by up to 4.3$\times$, speeds up the step duration of RL training by up to 1.5$\times$, and saves the external resources by up to 71.2$\%$. This system has been deployed to support the training of the MiMo series models.
- Abstract(参考訳): エージェント強化学習(RL)は,大規模言語モデル(LLM)が現実世界とのインタラクションを通じて複雑な問題を解くことを可能にするため,クラウドクラスタの変革的ワークロードとして登場した。
しかし、従来のRLとは異なり、エージェントRLは、例えば、コード実行用のCPUや報酬モデルのためのGPUといった、プライマリトレーニングクラスタの外に存在する相当な外部クラウドリソースを必要とします。
既存のエージェントRLフレームワークは、通常、静的なオーバープロビジョンに依存している。
本稿では、アクションレベルのオーケストレーションを提案し、それをARL-Tangramに組み込むことにより、きめ細かい外部リソースの共有と弾力性を実現する。
ARL-Tangramは、統一されたアクションレベル定式化と弾性スケジューリングアルゴリズムを使用して、異種資源制約を満たしつつ、アクション完了時間(ACT)を最小化する。
さらに、異種資源マネージャは、異種特性とトポロジを持つリソース上でのアクションレベルの実行を効率的にサポートするように調整されている。
実世界のエージェントRLタスクの評価では、ARL-Tangramは平均ACTを最大4.3$\times$に改善し、RLトレーニングのステップ期間を1.5$\times$に短縮し、外部リソースを最大71.2$\%$に短縮する。
このシステムは、MiMoシリーズモデルのトレーニングをサポートするためにデプロイされている。
関連論文リスト
- RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - Task Specific Sharpness Aware O-RAN Resource Management using Multi Agent Reinforcement Learning [8.26664397566735]
次世代ネットワークは、動的リソース管理を可能にするためにOpen Radio Access Network (O-RAN)アーキテクチャを利用する。
深層強化学習モデルは、動的環境における堅牢性と一般化性に苦しむことが多い。
本稿では,分散マルチエージェントRL(MARL)フレームワークにおいて,シャープネス・アウェア最小化(SAM)を用いたソフトアクタ批判(SAC)アルゴリズムの新たな資源管理手法を提案する。
論文 参考訳(メタデータ) (2025-11-19T00:55:24Z) - AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。
ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。
最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文 参考訳(メタデータ) (2025-11-02T04:17:30Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。