Fugu-MT 論文翻訳(概要): SeamlessFlow: A Trainer Agent Isolation RL Framework Achieving Bubble-Free Pipelines via Tag Scheduling

論文の概要: SeamlessFlow: A Trainer Agent Isolation RL Framework Achieving Bubble-Free Pipelines via Tag Scheduling

arxiv url: http://arxiv.org/abs/2508.11553v1
Date: Fri, 15 Aug 2025 15:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-18 14:51:24.137301
Title: SeamlessFlow: A Trainer Agent Isolation RL Framework Achieving Bubble-Free Pipelines via Tag Scheduling
Title（参考訳）: SeamlessFlow: タグスケジューリングによるバブルフリーパイプラインを実現するトレーナエージェント分離RLフレームワーク
Authors: Jinghui Wang, Shaojie Wang, Yinghan Cui, Xuxing Chen, Chao Wang, Xiaojiang Zhang, Minglei Zhang, Jiarong Zhang, Wenhao Zhuang, Yuchen Cao, Wankang Bao, Haimo Li, Zheng Lin, Huiming Wang, Haoyang Huang, Zongxian Feng, Zizheng Zhan, Ken Deng, Wen Xiang, Huaixi Tang, Kun Wu, Mengtong Li, Mengfei Xie, Junyi Peng, Haotian Zhang, Bin Chen, Bing Yu,
Abstract要約: SeamlessFlowはサーバベースの強化学習フレームワークである。 1)エージェントの複雑な実行フローからRLトレーニングを分離し、(2)最小アイドル時間でGPU利用を最大化する。
参考スコア（独自算出の注目度）: 29.845079500971615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce SeamlessFlow, a server based reinforcement learning (RL) framework that addresses two core challenges in industrial scale RL: (1) decoupling RL training from the complex execution flow of agents; (2) maximizing GPU utilization with minimal idle time while preserving the stability and scalability required for large-scale deployments. First, SeamlessFlow introduces a data plane that decouples the RL trainer from diverse, complex agent implementations while sustaining high throughput. A central trajectory manager maintains complete interaction histories and supports partial rollout, allowing rollout to pause for weight updates and resume seamlessly, keeping agents unaware of service interruptions. Second, we propose a tag driven scheduling paradigm that abstracts hardware into capability tagged resources, unifying colocated and disaggregated architectures. Based on this, SeamlessFlow introduces a spatiotemporal multiplexing pipeline that dynamically reassigns idle training nodes to rollout in a train rollout separated setup, eliminating pipeline bubbles and fully exploiting heterogeneous cluster resources. By combining these innovations, SeamlessFlow delivers both stability and high performance, making it well suited for multi agent, long horizon, and other complex RL tasks.
Abstract（参考訳）: 1) エージェントの複雑な実行フローからRLトレーニングを分離すること、(2) 大規模デプロイメントに必要な安定性とスケーラビリティを保ちながら、最小アイドル時間でGPU利用を最大化すること、である。まず、SeamlessFlowはRLトレーナーを多種多様な複雑なエージェント実装から切り離すデータプレーンを導入し、高いスループットを維持している。中央のトラジェクトリマネージャは、完全なインタラクション履歴を保持し、部分的なロールアウトをサポートする。第2に,ハードウェアをタグ付けしたリソースに抽象化するタグ駆動スケジューリング手法を提案する。これに基づいて、SeamlessFlowでは、アイドルトレーニングノードを動的に再割り当てして、列車のロールアウトを分離したセットアップでロールアウトし、パイプラインバブルを排除し、異種クラスタリソースを完全に活用する、時空間多重化パイプラインを導入している。これらのイノベーションを組み合わせることで、SeamlessFlowは安定性とハイパフォーマンスの両方を提供し、マルチエージェント、長い水平線、その他の複雑なRLタスクに適しています。

関連論文リスト

MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era [74.42509044145417]
MegaFlowは、エージェント環境ワークロードの効率的なスケジューリング、リソース割り当て、きめ細かいタスク管理を可能にする、大規模な分散オーケストレーションシステムである。エージェントのトレーニングデプロイメントでは、MegaFlowは、高いシステムの安定性を維持しながら、数万の並行エージェントタスクを編成し、効率的なリソース利用を実現しています。
論文参考訳（メタデータ） (2026-01-12T13:25:33Z)
RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文参考訳（メタデータ） (2025-12-27T11:14:23Z)
RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。 RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文参考訳（メタデータ） (2025-10-22T04:19:37Z)
Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony [78.70328630805041]
ROLL Flashは、ROLLを拡張し、非同期RLポストトレーニングをネイティブにサポートするシステムである。 ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを著しく向上させることを示す。
論文参考訳（メタデータ） (2025-10-13T12:41:27Z)
EARL: Efficient Agentic Reinforcement Learning Systems for Large Language Models [10.372430331898608]
強化学習(RL)は,大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素となっている。本稿では,効率的なエージェントRLのためのスケーラブルなシステムEARLを提案する。
論文参考訳（メタデータ） (2025-10-07T13:52:51Z)
RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation [48.387059398752626]
強化学習(Reinforcement Learning, RL)は、人工知能、エージェントインテリジェンス、エンボディドインテリジェンスを進化させる大きな可能性を実証している。本稿では,RL学習を効率化するための主要な障害がシステムの柔軟性にあるというキーとなる観察に基づいて,高性能なRLトレーニングシステムであるRLinfを提案する。 RLinfは最先端のシステムより一貫して優れており、エンドツーエンドのトレーニングスループットで1.1x-2.13xのスピードアップを達成した。
論文参考訳（メタデータ） (2025-09-19T13:24:17Z)
Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms [4.127488674019288]
大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
論文参考訳（メタデータ） (2025-08-07T13:37:04Z)
AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文参考訳（メタデータ） (2025-07-02T12:45:34Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。分散トレーニングシステムに固有の機能的冗長性を活用する。複数の障害で高いトレーニングスループットを実現していることを示す。
論文参考訳（メタデータ） (2024-05-22T21:35:56Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。