Fugu-MT 論文翻訳(概要): Periodic Asynchrony: An Effective Method for Accelerating Reinforcement Learning

論文の概要: Periodic Asynchrony: An Effective Method for Accelerating Reinforcement Learning

arxiv url: http://arxiv.org/abs/2511.18871v2
Date: Mon, 01 Dec 2025 09:00:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-02 15:37:38.232789
Title: Periodic Asynchrony: An Effective Method for Accelerating Reinforcement Learning
Title（参考訳）: 周期的非同期性:強化学習を加速するための効果的な方法
Authors: Jian Lu,
Abstract要約: 強化学習 (RL) が注目され, 再生・適用への取り組みが高まっている。主流のRLフレームワークでは、推論とトレーニングは一般的に同じデバイスにデプロイされる。本研究では、推論とトレーニングの展開を分離する戦略に戻ります。従来の同期アーキテクチャを周期的な非同期フレームワークに変換し、各コンポーネントの要求駆動、独立、および弾力的なスケーリングを可能にします。
参考スコア（独自算出の注目度）: 8.395046547177806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since the introduction of the GRPO algorithm, reinforcement learning (RL) has attracted increasing attention, with growing efforts to reproduce and apply it. However, training efficiency remains a critical challenge. In mainstream RL frameworks, inference and training are typically deployed on the same devices. While this approach reduces costs through resource consolidation, its synchronous execution imposes a computational coupling that prevents concurrent inference and training. In this study, we are returning to the strategy of separating inference and training deployment, and by introducing improvements in the data loader, we transform the conventional synchronous architecture into a periodically asynchronous framework, which allows for demand-driven, independent, and elastic scaling of each component, while the accuracy of the algorithm remains completely equivalent to the synchronization method, with both belonging to the on-policy strategy. It is worth emphasizing that we apply a unified tri-model architecture in the training phase, and we also proposed a shared-prompt attention mask to reduce repetitive computation. In practice, these works have achieved at least a threefold overall performance improvement in RL training on NPU platforms, indicating its potential for widespread application.
Abstract（参考訳）: GRPOアルゴリズムの導入以降、強化学習(RL)が注目され、その再現と適用が進んでいる。しかし、訓練効率は依然として重要な課題である。主流のRLフレームワークでは、推論とトレーニングは一般的に同じデバイスにデプロイされる。このアプローチはリソースの集約によってコストを削減するが、同期実行では、同時推論とトレーニングの妨げとなる計算結合が課される。本研究では、推論とトレーニングの展開を分離する戦略に戻り、データローダの改善を導入することで、従来の同期アーキテクチャを周期的に非同期なフレームワークに変換し、各コンポーネントの需要駆動型、独立型、弾性スケーリングを可能にし、アルゴリズムの精度は同期手法と完全に等価であり、どちらも政治戦略に属する。トレーニングフェーズに統一された三モデルアーキテクチャを適用し、繰り返し計算を減らすために、共有プロンプトの注意マスクも提案した。実際には、これらの作業は、NPUプラットフォーム上でのRLトレーニングにおいて、少なくとも3倍の全体的なパフォーマンス向上を実現しており、幅広いアプリケーションの可能性を示している。

関連論文リスト

GAC: Stabilizing Asynchronous RL Training for LLMs via Gradient Alignment Control [16.529035487811267]
政策段階の更新に非同期性を適用することで,定性的に異なるトレーニングダイナミクスを誘導し,厳しいトレーニング不安定を生じさせることを示す。 GRADIENT ALIGNMENT Controlは、静的な方向に沿って非同期RLの進行を制御するシンプルな動的認識安定化法である。
論文参考訳（メタデータ） (2026-03-02T06:19:43Z)
RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism [42.27384804295299]
VLA(Vision-Language-Action)モデルは、一般的なインボディードインテリジェンスへの重要な経路として登場した。本稿では,環境相互作用からアクタポリシー更新に至るまで,パイプライン全体を包含する完全に非同期なポリシートレーニングフレームワークを提案し,実装する。 LIBEROベンチマークでは、既存の同期戦略と比較して59.25%のスループット向上を実現している。
論文参考訳（メタデータ） (2026-02-05T15:30:23Z)
AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文参考訳（メタデータ） (2025-11-02T04:17:30Z)
Asynchronous Policy Gradient Aggregation for Efficient Distributed Reinforcement Learning [55.50683337004406]
本稿では非同期ポリシー勾配アグリゲーションを実装したRennala NIGTとMalenia NIGTという2つの新しいアルゴリズムを紹介する。同質な設定では、Rennala NIGTはAllReduce操作をサポートしながら、計算と通信の合計複雑性を良好に改善する。不均質な環境では、Malenia NIGTは非同期計算と不均質な環境を厳密な理論上の保証で同時に扱う。
論文参考訳（メタデータ） (2025-09-29T05:38:42Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
RL-DAUNCE: Reinforcement Learning-Driven Data Assimilation with Uncertainty-Aware Constrained Ensembles [1.609702184777697]
RL-DAUNCEは,物理制約によるデータ同化を向上する新しいRL-DAUNCE法である。まず、RL-DAUNCEは機械学習の計算効率を継承する。第2に、RL-DAUNCEは複数のアンサンブルメンバーを前進させることによって不確実性を強調する。第3に、RL-DAUNCEのアンサンブル・アズ・エージェントの設計は、物理的な制約の実施を促進する。
論文参考訳（メタデータ） (2025-05-08T17:43:35Z)
From promise to practice: realizing high-performance decentralized training [8.955918346078935]
ディープニューラルネットワークの分散トレーニングは、All-Reduceのような同期データ並列メソッドよりも理論的に優れたスケーラビリティのために大きな注目を集めている。本稿では、All-Reduceトレーニングのスピードアップにつながる3つの重要な要因を特定し、いつ、どのように、どの程度の分散化によって、より短い実行時間が得られるかを決定するランタイムモデルを構築する。
論文参考訳（メタデータ） (2024-10-15T19:04:56Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Federated Learning based on Pruning and Recovery [0.0]
このフレームワークは非同期学習アルゴリズムとプルーニング技術を統合している。異種デバイスを含むシナリオにおいて、従来のフェデレーション学習アルゴリズムの非効率性に対処する。また、非同期アルゴリズムで特定のクライアントの不安定な問題や不適切なトレーニングにも取り組みます。
論文参考訳（メタデータ） (2024-03-16T14:35:03Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
Scheduling and Aggregation Design for Asynchronous Federated Learning over Wireless Networks [56.91063444859008]
Federated Learning(FL)は、デバイス上でのトレーニングとサーバベースのアグリゲーションを組み合わせた、協調的な機械学習フレームワークである。 FLシステムにおけるストラグラー問題に対処するために,周期的アグリゲーションを用いた非同期FL設計を提案する。年齢認識の集約重み付け設計は,非同期FL設定における学習性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-14T17:33:01Z)
Parallelized Reverse Curriculum Generation [62.25453821794469]
強化学習では, エージェントが, まばらな報酬のために, 特定の一連の行動を必要とするタスクをマスターすることが困難である。逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。
論文参考訳（メタデータ） (2021-08-04T15:58:35Z)
An Efficient Asynchronous Method for Integrating Evolutionary and Gradient-based Policy Search [76.73477450555046]
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
論文参考訳（メタデータ） (2020-12-10T02:30:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。