Fugu-MT 論文翻訳(概要): AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training

論文の概要: AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training

arxiv url: http://arxiv.org/abs/2507.01663v1
Date: Wed, 02 Jul 2025 12:45:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:23:00.233068
Title: AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training
Title（参考訳）: AsyncFlow: 効率的なLLM後トレーニングのための非同期ストリーミングRLフレームワーク
Authors: Zhenyu Han, Ansheng You, Haibo Wang, Kui Luo, Guang Yang, Wenqi Shi, Menglong Chen, Sicheng Zhang, Zeshun Lan, Chunshi Deng, Huazhong Ji, Wenjie Liu, Yu Huang, Yixiang Zhang, Chenyi Pan, Jing Wang, Xin Huang, Chunsheng Li, Jianping Wu,
Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
参考スコア（独自算出の注目度）: 24.60677187852425
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reinforcement learning (RL) has become a pivotal technology in the post-training phase of large language models (LLMs). Traditional task-colocated RL frameworks suffer from significant scalability bottlenecks, while task-separated RL frameworks face challenges in complex dataflows and the corresponding resource idling and workload imbalance. Moreover, most existing frameworks are tightly coupled with LLM training or inference engines, making it difficult to support custom-designed engines. To address these challenges, we propose AsyncFlow, an asynchronous streaming RL framework for efficient post-training. Specifically, we introduce a distributed data storage and transfer module that provides a unified data management and fine-grained scheduling capability in a fully streamed manner. This architecture inherently facilitates automated pipeline overlapping among RL tasks and dynamic load balancing. Moreover, we propose a producer-consumer-based asynchronous workflow engineered to minimize computational idleness by strategically deferring parameter update process within staleness thresholds. Finally, the core capability of AsynFlow is architecturally decoupled from underlying training and inference engines and encapsulated by service-oriented user interfaces, offering a modular and customizable user experience. Extensive experiments demonstrate an average of 1.59 throughput improvement compared with state-of-the-art baseline. The presented architecture in this work provides actionable insights for next-generation RL training system designs.
Abstract（参考訳）: 強化学習(RL)は,大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークはスケーラビリティの重大なボトルネックに悩まされており、タスク分離のRLフレームワークは複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面している。さらに、既存のフレームワークはLLMトレーニングや推論エンジンと密結合しており、カスタム設計エンジンのサポートが困難である。これらの課題に対処するために,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。具体的には、分散データストレージおよび転送モジュールを導入し、完全にストリーム化された方法で、統一されたデータ管理ときめ細かいスケジューリング機能を提供する。このアーキテクチャは本質的に、RLタスクと動的ロードバランシングの間で、パイプラインの自動オーバーラップを容易にする。さらに,安定度閾値内でパラメータ更新プロセスを戦略的に遅延させることで,計算アイドルネスを最小限に抑えるために,プロデューサベースの非同期ワークフローを提案する。最後に、AsynFlowのコア機能は、基礎となるトレーニングと推論エンジンからアーキテクチャ的に分離され、サービス指向のユーザインターフェースによってカプセル化され、モジュラーでカスタマイズ可能なユーザエクスペリエンスを提供する。大規模な実験では、最先端のベースラインと比較して平均1.59スループットの改善が示されている。この研究で提示されたアーキテクチャは、次世代のRLトレーニングシステムの設計に対して実用的な洞察を提供する。

関連論文リスト

Rollout-Training Co-Design for Efficient LLM-Based Multi-Agent Reinforcement Learning [21.32826098306222]
既存のトレーニングフレームワークは、マルチエージェント強化学習におけるユニークなシステムレベルの課題に対処できない。私たちはFlexMARLを提案します。FlexMARLは、ロールアウト、トレーニング、およびそれらのオーケストレーションを均等に最適化する最初のエンドツーエンドのトレーニングフレームワークです。 FlexMARLは、既存のフレームワークと比較して最大7.3倍のスピードアップを実現し、ハードウェア利用率を最大5.6倍改善することを示す。
論文参考訳（メタデータ） (2026-02-10T09:27:03Z)
RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism [42.27384804295299]
VLA(Vision-Language-Action)モデルは、一般的なインボディードインテリジェンスへの重要な経路として登場した。本稿では,環境相互作用からアクタポリシー更新に至るまで,パイプライン全体を包含する完全に非同期なポリシートレーニングフレームワークを提案し,実装する。 LIBEROベンチマークでは、既存の同期戦略と比較して59.25%のスループット向上を実現している。
論文参考訳（メタデータ） (2026-02-05T15:30:23Z)
RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文参考訳（メタデータ） (2025-12-27T11:14:23Z)
DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文参考訳（メタデータ） (2025-12-23T08:33:19Z)
Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony [78.70328630805041]
ROLL Flashは、ROLLを拡張し、非同期RLポストトレーニングをネイティブにサポートするシステムである。 ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを著しく向上させることを示す。
論文参考訳（メタデータ） (2025-10-13T12:41:27Z)
High-Throughput Distributed Reinforcement Learning via Adaptive Policy Synchronization [0.0]
ClusterEnvは、Gymnasium APIを反映した、分散環境実行のための学習者に依存しないインターフェイスである。 ClusterEnvは、リモートワーカーにreset()とstep()操作をオフロードし、学習を集中的に維持することで、トレーニングからシミュレーションを分離するDETACHパターンを導入した。本稿では,適応アクタポリシー同期(AAPS)を提案する。これは分散トリガーによる更新機構で,性能を犠牲にすることなく,同期オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-07-15T05:07:12Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。オンラインDPOは、政治以外のデータに対して最も堅牢である。非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
論文参考訳（メタデータ） (2024-10-23T19:59:50Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文参考訳（メタデータ） (2023-12-11T05:25:01Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Asynchronous Multi-Model Dynamic Federated Learning over Wireless Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文参考訳（メタデータ） (2023-05-22T21:39:38Z)
Scheduling and Aggregation Design for Asynchronous Federated Learning over Wireless Networks [56.91063444859008]
Federated Learning(FL)は、デバイス上でのトレーニングとサーバベースのアグリゲーションを組み合わせた、協調的な機械学習フレームワークである。 FLシステムにおけるストラグラー問題に対処するために,周期的アグリゲーションを用いた非同期FL設計を提案する。年齢認識の集約重み付け設計は,非同期FL設定における学習性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-14T17:33:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。