論文の概要: Rollout-Training Co-Design for Efficient LLM-Based Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.09578v1
- Date: Tue, 10 Feb 2026 09:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.471928
- Title: Rollout-Training Co-Design for Efficient LLM-Based Multi-Agent Reinforcement Learning
- Title(参考訳): 効率的なLLMに基づく多エージェント強化学習のためのロールアウト学習協調設計
- Authors: Zhida Jiang, Zhaolong Xing, Jiawei Lu, Yipei Niu, Qingyuan Sang, Liangxu Zhang, Wenquan Dai, Junhua Shu, Jiaxing Wang, Qiangyu Pei, Qiong Chen, Xinyu Liu, Fangming Liu, Ai Han, Zhen Chen, Ke Zhang,
- Abstract要約: 既存のトレーニングフレームワークは、マルチエージェント強化学習におけるユニークなシステムレベルの課題に対処できない。
私たちはFlexMARLを提案します。FlexMARLは、ロールアウト、トレーニング、およびそれらのオーケストレーションを均等に最適化する最初のエンドツーエンドのトレーニングフレームワークです。
FlexMARLは、既存のフレームワークと比較して最大7.3倍のスピードアップを実現し、ハードウェア利用率を最大5.6倍改善することを示す。
- 参考スコア(独自算出の注目度): 21.32826098306222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite algorithm-level innovations for multi-agent reinforcement learning (MARL), the underlying networked infrastructure for large-scale MARL training remains underexplored. Existing training frameworks primarily optimize for single-agent scenarios and fail to address the unique system-level challenges of MARL, including rollout-training synchronization barriers, rollout load imbalance, and training resource underutilization. To bridge this gap, we propose FlexMARL, the first end-to-end training framework that holistically optimizes rollout, training, and their orchestration for large-scale LLM-based MARL. Specifically, FlexMARL introduces the joint orchestrator to manage data flow under the rollout-training disaggregated architecture. Building upon the experience store, a novel micro-batch driven asynchronous pipeline eliminates the synchronization barriers while providing strong consistency guarantees. Rollout engine adopts a parallel sampling scheme combined with hierarchical load balancing, which adapts to skewed inter/intra-agent request patterns. Training engine achieves on-demand hardware binding through agent-centric resource allocation. The training states of different agents are swapped via unified and location-agnostic communication. Empirical results on a large-scale production cluster demonstrate that FlexMARL achieves up to 7.3x speedup and improves hardware utilization by up to 5.6x compared to existing frameworks.
- Abstract(参考訳): マルチエージェント強化学習(MARL)のアルゴリズムレベルの革新にもかかわらず、大規模MARLトレーニングの基盤となるネットワーク化インフラストラクチャはいまだ検討されていない。
既存のトレーニングフレームワークは、主に単一エージェントシナリオを最適化し、ロールアウトトレーニング同期バリア、ロールアウトロードの不均衡、トレーニングリソースの未使用など、MARLのユニークなシステムレベルの課題に対処できない。
このギャップを埋めるために、私たちはFlexMARLを提案します。FlexMARLは、大規模LLMベースのMARLのためのロールアウト、トレーニング、およびそれらのオーケストレーションを全体最適化する最初のエンドツーエンドのトレーニングフレームワークです。
具体的には、FlexMARLは、ロールアウトトレーニングの非集約アーキテクチャの下でデータフローを管理するためのジョイントオーケストレータを導入している。
エクスペリエンスストア上に構築された新しいマイクロバッチ駆動非同期パイプラインは、強い一貫性を保証すると同時に、同期障壁を排除します。
ロールアウトエンジンは並列サンプリングスキームと階層的ロードバランシングを組み合わせており、スキュードされたインター/イントラエージェント要求パターンに適応する。
トレーニングエンジンはエージェント中心のリソース割り当てを通じてオンデマンドハードウェアバインディングを実現する。
異なるエージェントの訓練状態は、統一的および位置認識通信を介して交換される。
大規模なプロダクションクラスタでの実証的な結果は、FlexMARLが7.3倍のスピードアップを実現し、既存のフレームワークと比較してハードウェア使用率を最大5.6倍改善していることを示している。
関連論文リスト
- DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony [78.70328630805041]
ROLL Flashは、ROLLを拡張し、非同期RLポストトレーニングをネイティブにサポートするシステムである。
ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-10-13T12:41:27Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism [9.93378263858092]
マルチモーダル大言語モデル(MLLM)は、特徴抽出器とプロジェクションモジュールを組み込むことで、画像、ビデオ、オーディオを扱う。
現在の密結合のサービスアーキテクチャは、混合要求タイプを区別するのに苦労しています。
本稿では,リソースの不均一性に弾力的に適応する新しいサービスパラダイムであるElastic Multimodal Parallelism(EMP)を紹介する。
論文 参考訳(メタデータ) (2025-07-14T08:53:48Z) - AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。
従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。
タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。
本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:45:34Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration [12.914011030970814]
マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)と一緒に実装することで、低コストなデプロイメントを実現する。
本稿では,ベイジアンディープ強化学習(RL)を用いたO-RAN/MEC協調オーケストレーションを提案する。
論文 参考訳(メタデータ) (2023-12-26T18:04:49Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。