Fugu-MT 論文翻訳(概要): Adaptive Policy Synchronization for Scalable Reinforcement Learning

論文の概要: Adaptive Policy Synchronization for Scalable Reinforcement Learning

arxiv url: http://arxiv.org/abs/2507.10990v2
Date: Fri, 17 Oct 2025 21:19:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 00:56:38.460073
Title: Adaptive Policy Synchronization for Scalable Reinforcement Learning
Title（参考訳）: スケーラブル強化学習のための適応的ポリシー同期
Authors: Rodney Lafuente-Mercado,
Abstract要約: ClusterEnvは、分散環境実行のための軽量インターフェースである。オンプレミスとオフラインの両方をサポートし、最小限の変更で既存のトレーニングコードに統合され、クラスタ上で効率的に実行される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling reinforcement learning (RL) often requires running environments across many machines, but most frameworks tie simulation, training, and infrastructure into rigid systems. We introduce ClusterEnv, a lightweight interface for distributed environment execution that preserves the familiar Gymnasium API. ClusterEnv uses the DETACH pattern, which moves environment reset() and step() operations to remote workers while keeping learning centralized. To reduce policy staleness without heavy communication, we propose Adaptive Policy Synchronization (APS), where workers request updates only when divergence from the central learner grows too large. ClusterEnv supports both on- and off-policy methods, integrates into existing training code with minimal changes, and runs efficiently on clusters. Experiments on discrete control tasks show that APS maintains performance while cutting synchronization overhead. Source code is available at https://github.com/rodlaf/ClusterEnv.
Abstract（参考訳）: 強化学習(RL)のスケーリングには、多くのマシンで環境を実行する必要があることが多いが、ほとんどのフレームワークは、シミュレーション、トレーニング、インフラストラクチャを厳格なシステムに結びつける。私たちは、よく知られたGymnasium APIを保存する分散環境実行のための軽量インターフェースであるClusterEnvを紹介します。 ClusterEnvでは、環境リセット()とステップ()操作をリモートワーカに移動させ、学習を集中的に維持するDETACHパターンを使用している。本研究では,集中学習者からの逸脱が大きすぎる場合にのみ,労働者が更新を要求する適応的政策同期(APS)を提案する。 ClusterEnvは、オンとオフの両方のポリシメソッドをサポートし、最小限の変更で既存のトレーニングコードに統合され、クラスタ上で効率的に実行される。個別制御タスクの実験では、APSはオーバーヘッドをカットしながらパフォーマンスを維持している。ソースコードはhttps://github.com/rodlaf/ClusterEnv.comで入手できる。

関連論文リスト

Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms [4.127488674019288]
大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
論文参考訳（メタデータ） (2025-08-07T13:37:04Z)
AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文参考訳（メタデータ） (2025-07-02T12:45:34Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
OmniLearn: A Framework for Distributed Deep Learning over Heterogeneous Clusters [1.4131700241686853]
異種資源の影響を軽減するため,OmniLearnという適応型バッチスケーリングフレームワークを開発した。当社のアプローチは、異種サーバ間のバランスをとるための比例的なコントローラにインスパイアされ、さまざまなリソースの可用性の下で動作します。
論文参考訳（メタデータ） (2025-03-21T18:26:24Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Taming Resource Heterogeneity In Distributed ML Training With Dynamic Batching [1.047192732651018]
分散モデルトレーニングの現在の技術は、クラスタが一定のリソース可用性を持つサーバで構成されていることを主に前提としている。本研究では、分散データ並列学習のための動的手法を開発し、各作業者のミニバッチサイズを可用性とスループットに基づいて調整する。
論文参考訳（メタデータ） (2023-05-20T15:33:06Z)
Device Scheduling and Update Aggregation Policies for Asynchronous Federated Learning [72.78668894576515]
Federated Learning (FL)は、新しく登場した分散機械学習(ML)フレームワークである。本稿では,FLシステムにおけるトラグラー問題を排除するために,周期的なアグリゲーションを伴う非同期FLフレームワークを提案する。
論文参考訳（メタデータ） (2021-07-23T18:57:08Z)
Online Deep Clustering for Unsupervised Representation Learning [108.33534231219464]
オンラインディープクラスタリング(ODC)は、交互にではなく、クラスタリングとネットワーク更新を同時に実行する。我々は,2つの動的メモリモジュール,すなわち,サンプルラベルと特徴を格納するサンプルメモリと,セントロイド進化のためのセントロイドメモリを設計,維持する。このように、ラベルとネットワークは交互にではなく肩から肩へと進化する。
論文参考訳（メタデータ） (2020-06-18T16:15:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。