Fugu-MT 論文翻訳(概要): High-Throughput Synchronous Deep RL

論文の概要: High-Throughput Synchronous Deep RL

arxiv url: http://arxiv.org/abs/2012.09849v1
Date: Thu, 17 Dec 2020 18:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-02 07:39:12.022924
Title: High-Throughput Synchronous Deep RL
Title（参考訳）: 高出力同期深部RL
Authors: Iou-Jen Liu and Raymond A. Yeh and Alexander G. Schwing
Abstract要約: HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
参考スコア（独自算出の注目度）: 132.43861715707905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (RL) is computationally demanding and requires processing of many data points. Synchronous methods enjoy training stability while having lower data throughput. In contrast, asynchronous methods achieve high throughput but suffer from stability issues and lower sample efficiency due to `stale policies.' To combine the advantages of both methods we propose High-Throughput Synchronous Deep Reinforcement Learning (HTS-RL). In HTS-RL, we perform learning and rollouts concurrently, devise a system design which avoids `stale policies' and ensure that actors interact with environment replicas in an asynchronous manner while maintaining full determinism. We evaluate our approach on Atari games and the Google Research Football environment. Compared to synchronous baselines, HTS-RL is 2-6$\times$ faster. Compared to state-of-the-art asynchronous methods, HTS-RL has competitive throughput and consistently achieves higher average episode rewards.
Abstract（参考訳）: 深層強化学習(RL)は計算的に要求され、多くのデータポイントの処理を必要とする。同期メソッドは、データスループットを低くしながらトレーニングの安定性を楽しむ。対照的に、非同期メソッドは高いスループットを実現するが、安定性の問題や'スタックポリシー'によるサンプル効率の低下に悩まされる。両手法の利点を組み合わせるために,HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)を提案する。 HTS-RLでは,学習とロールアウトを同時に実施し,「安定ポリシー」を回避するシステム設計を考案し,アクターが完全な決定性を維持しつつ,非同期で環境レプリカと対話することを保証する。我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。同期ベースラインと比較して、HTS-RLは2-6$\times$高速である。最先端の非同期手法と比較して、HTS-RLは競争力があり、平均的なエピソード報酬を一貫して達成する。

関連論文リスト

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism [54.8494905524997]
両方の並列処理軸をまたいだ非同期更新を導入し、コロケーション要求を緩和します。スパース平均化と非同期更新の両方に対して収束保証を提供します。大規模言語モデルを用いた実験により,本手法が完全同期ベースラインの性能と一致することを示した。
論文参考訳（メタデータ） (2026-01-30T01:24:47Z)
AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文参考訳（メタデータ） (2025-11-02T04:17:30Z)
Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony [78.70328630805041]
ROLL Flashは、ROLLを拡張し、非同期RLポストトレーニングをネイティブにサポートするシステムである。 ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを著しく向上させることを示す。
論文参考訳（メタデータ） (2025-10-13T12:41:27Z)
History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL [14.506189610798929]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な方法論として登場した。 RhymeRLは、RLトレーニングを2つの重要なイノベーションで加速するLLM RLシステムである。まず、ロールアウト生成を強化するために、投機的復号推論エンジンであるHistoSpecを紹介する。第二に、ロールアウトバブルに取り組むために、2層スケジューリング戦略であるHistoPipeを紹介します。
論文参考訳（メタデータ） (2025-08-26T01:42:46Z)
Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文参考訳（メタデータ） (2025-08-19T23:41:15Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
Synchronous vs Asynchronous Reinforcement Learning in a Real World Robot [0.0]
強化学習(RL)エージェントは、定期的に計算に高価な勾配更新を実行することで学習する。急速に変化する環境では、学習エージェントの性能に応答時間の増加が有害となる可能性がある。非同期RL法は、意思決定と勾配更新の計算を分離する。実験の結果,エージェントはより高速に学習し,非同期RLでさらに多くのリターンを得ることができた。
論文参考訳（メタデータ） (2025-03-17T22:24:39Z)
Highly Parallelized Reinforcement Learning Training with Relaxed Assignment Dependencies [10.18115392275147]
本稿では,高スループット分散深層強化学習システムTianJiを提案する。サブタスクコンポーネント間の割り当て依存関係を緩和し、イベント駆動の非同期通信を可能にする。 TianJiは、関連する比較システムと比較して最大4.37の収束時間加速比を達成する。
論文参考訳（メタデータ） (2025-02-27T15:23:43Z)
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。非同期RLHFのさらなる計算最適化について検討するが、性能上のコストがかかることがわかった。
論文参考訳（メタデータ） (2024-10-23T19:59:50Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。 ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文参考訳（メタデータ） (2023-10-22T21:38:57Z)
Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文参考訳（メタデータ） (2023-07-22T12:10:04Z)
Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文参考訳（メタデータ） (2023-07-16T05:28:59Z)
Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文参考訳（メタデータ） (2022-07-26T17:54:49Z)
Hierarchical Reinforcement Learning with Optimal Level Synchronization based on a Deep Generative Model [4.266866385061998]
HRLの問題のひとつは、それぞれのレベルポリシーを、その経験から最適なデータ収集でトレーニングする方法です。本稿では,高次生成モデルを用いたオフポリシー補正手法を用いて,最適レベルの同期をサポートする新しいHRLモデルを提案する。
論文参考訳（メタデータ） (2021-07-17T05:02:25Z)
Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep Learning [10.196574441542646]
Gradient Descent(SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。本稿では、BSPとASP.NETの両方の利点を利用するハイブリッド同期アプローチを設計する。
論文参考訳（メタデータ） (2021-04-16T20:49:28Z)
Asynchronous Advantage Actor Critic: Non-asymptotic Analysis and Linear Speedup [56.27526702716774]
本稿では、A3CアルゴリズムをTD(0)で修正し、A3C-TD(0)と呼ばれ、証明可能な収束を保証する。 i.i.d. サンプリング a3c-td(0) は、作業者あたり $mathcalo(epsilon-2.5/n)$ のサンプル複雑性を取得して $epsilon$ 精度を達成する。 2 に対して $mathcalO(epsilon-2.5/N)$ の最もよく知られたサンプル複雑性との比較
論文参考訳（メタデータ） (2020-12-31T09:07:09Z)
An Efficient Asynchronous Method for Integrating Evolutionary and Gradient-based Policy Search [76.73477450555046]
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
論文参考訳（メタデータ） (2020-12-10T02:30:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。