論文の概要: The Impact of On-Policy Parallelized Data Collection on Deep Reinforcement Learning Networks
- arxiv url: http://arxiv.org/abs/2506.03404v1
- Date: Tue, 03 Jun 2025 21:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.060983
- Title: The Impact of On-Policy Parallelized Data Collection on Deep Reinforcement Learning Networks
- Title(参考訳): オンライン並列データ収集が深層強化学習ネットワークに及ぼす影響
- Authors: Walter Mayor, Johan Obando-Ceron, Aaron Courville, Pablo Samuel Castro,
- Abstract要約: データ収集のための並列アクターは、強化学習アルゴリズムで使用される効果的なテクニックである。
我々は並列アクターを用いた最も人気のあるRLアルゴリズムの1つであるPPO上のトレードオフを実証分析する。
分析の結果,データセットのサイズが大きくなれば,さまざまな設定で最終的なパフォーマンスが向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 12.82803159923457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of parallel actors for data collection has been an effective technique used in reinforcement learning (RL) algorithms. The manner in which data is collected in these algorithms, controlled via the number of parallel environments and the rollout length, induces a form of bias-variance trade-off; the number of training passes over the collected data, on the other hand, must strike a balance between sample efficiency and overfitting. We conduct an empirical analysis of these trade-offs on PPO, one of the most popular RL algorithms that uses parallel actors, and establish connections to network plasticity and, more generally, optimization stability. We examine its impact on network architectures, as well as the hyper-parameter sensitivity when scaling data. Our analyses indicate that larger dataset sizes can increase final performance across a variety of settings, and that scaling parallel environments is more effective than increasing rollout lengths. These findings highlight the critical role of data collection strategies in improving agent performance.
- Abstract(参考訳): データ収集に並列アクターを用いることは、強化学習(RL)アルゴリズムにおいて有効な手法である。
これらのアルゴリズムでデータを収集する方法は、並列環境の数とロールアウト長さによって制御され、バイアス分散トレードオフの形で誘導される。一方、収集されたデータを超えるトレーニングの数は、サンプル効率とオーバーフィッティングのバランスを取らなければならない。
我々は、並列アクターを用いた最も人気のあるRLアルゴリズムの1つであるPPO上のこれらのトレードオフを実証分析し、ネットワーク可塑性との接続を確立し、より一般的に最適化安定性を確立する。
ネットワークアーキテクチャへの影響とデータスケーリング時のハイパーパラメータ感度について検討する。
分析の結果,データセットサイズが大きくなれば,さまざまな設定で最終的なパフォーマンスが向上し,並列環境のスケーリングがロールアウト期間の増加よりも効果的であることが示唆された。
これらの結果は,エージェントの性能向上におけるデータ収集戦略の重要性を浮き彫りにしている。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics [29.49913315698914]
Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。
本研究では、DRLに基づくアルゴリズムを並列設定で最適化することに焦点を当てる。
並列効率を約49%から約78%に向上させる。
論文 参考訳(メタデータ) (2024-02-18T09:07:30Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。