論文の概要: Fast Population-Based Reinforcement Learning on a Single Machine
- arxiv url: http://arxiv.org/abs/2206.08888v1
- Date: Fri, 17 Jun 2022 16:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:39:15.148657
- Title: Fast Population-Based Reinforcement Learning on a Single Machine
- Title(参考訳): 単一マシン上での高速人口ベース強化学習
- Authors: Arthur Flajolet, Claire Bizon Monroc, Karim Beguir, Thomas Pierrot
- Abstract要約: エージェントのトレーニング人口は、強化学習において、トレーニングの安定化、探索とパフォーマンスの改善、さまざまなソリューションの生成において大きな可能性を示してきた。
しかし、集団ベースの訓練は、非合法的に遅い(順次実施される場合)か、あるいは計算コストが高い(エージェントが独立したアクセラレーターで並列に訓練されている場合)と認識されるため、実践者によっては考えられないことが多い。
本研究は,1台のマシン上で,集団ベースの訓練を1台のエージェントと比較して最小限のオーバーヘッドで行うことができることを示すために,実装を比較し,以前の研究を再考する。
- 参考スコア(独自算出の注目度): 1.9446983890861742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training populations of agents has demonstrated great promise in
Reinforcement Learning for stabilizing training, improving exploration and
asymptotic performance, and generating a diverse set of solutions. However,
population-based training is often not considered by practitioners as it is
perceived to be either prohibitively slow (when implemented sequentially), or
computationally expensive (if agents are trained in parallel on independent
accelerators). In this work, we compare implementations and revisit previous
studies to show that the judicious use of compilation and vectorization allows
population-based training to be performed on a single machine with one
accelerator with minimal overhead compared to training a single agent. We also
show that, when provided with a few accelerators, our protocols extend to large
population sizes for applications such as hyperparameter tuning. We hope that
this work and the public release of our code will encourage practitioners to
use population-based learning more frequently for their research and
applications.
- Abstract(参考訳): エージェントの集団の訓練は、トレーニングの安定化、探索と漸近的なパフォーマンスの向上、多様なソリューションセットの生成のための強化学習において、大きな可能性を証明している。
しかし、人口ベースのトレーニングは、(連続的に実施する場合)禁止的に遅いか(エージェントが独立アクセラレータ上で並列に訓練されている場合)計算コストが高いと認識されるため、実践者によっては考慮されないことが多い。
本研究では,提案手法を比較,再検討し,コンパイルとベクトル化の相互利用により,単一のエージェントを訓練するよりも少ないオーバヘッドで,ひとつのマシン上で集団ベースのトレーニングを行うことができることを示した。
また、いくつかのアクセラレーターを提供すると、ハイパーパラメータチューニングのようなアプリケーションのために、我々のプロトコルは大きな人口規模に拡張されます。
この作業とコードの公開によって、実践者が研究や応用に人口ベースの学習をより頻繁に使用するようになることを願っています。
関連論文リスト
- Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Improving Behavioural Cloning with Human-Driven Dynamic Dataset
Augmentation [0.0]
動作クローンとループ内のトレーニングを組み合わせることで、その欠陥のいくつかが解決されることを示す。
本稿では,シミュレーション中にエージェントをいつでも制御できる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T16:57:17Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。
現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T16:23:13Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Horizontally Fused Training Array: An Effective Hardware Utilization
Squeezer for Training Novel Deep Learning Models [8.055533378391814]
単一加速器のトレーニングジョブが繰り返し起動した場合,クラスタ全体のリソース消費を支配していることを示す。
本稿では,DL研究者や実践者が新たなDLトレーニングワークロードのハードウェア利用を効果的かつ容易に向上するために,水平混合訓練アレイ(HFTA)を提案する。
HFTAは、ハードウェア使用量の削減に強い効果を示し、個別のアクセラレータ上で各ジョブを実行する標準的なプラクティスと比較して、最大15.1倍のトレーニングスループットを実現している。
論文 参考訳(メタデータ) (2021-02-03T23:56:55Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z) - Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement
Learning [37.22210622432453]
進化的人口カリキュラムは、段階的にトレーニングエージェントの人口を徐々に増加させ、マルチエージェント強化学習(MARL)をスケールアップする。
我々は、人気のあるMARLアルゴリズムであるMADDPGにEPCを実装し、エージェントの数が指数関数的に増加するにつれて、我々のアプローチがベースラインを一貫して上回っていることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-23T17:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。