論文の概要: Large Batch Simulation for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.07013v1
- Date: Fri, 12 Mar 2021 00:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:33:33.152642
- Title: Large Batch Simulation for Deep Reinforcement Learning
- Title(参考訳): 深部強化学習のための大規模バッチシミュレーション
- Authors: Brennan Shacklett, Erik Wijmans, Aleksei Petrenko, Manolis Savva,
Dhruv Batra, Vladlen Koltun, Kayvon Fatahalian
- Abstract要約: 我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
- 参考スコア(独自算出の注目度): 101.01408262583378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We accelerate deep reinforcement learning-based training in visually complex
3D environments by two orders of magnitude over prior work, realizing
end-to-end training speeds of over 19,000 frames of experience per second on a
single GPU and up to 72,000 frames per second on a single eight-GPU machine.
The key idea of our approach is to design a 3D renderer and embodied navigation
simulator around the principle of "batch simulation": accepting and executing
large batches of requests simultaneously. Beyond exposing large amounts of work
at once, batch simulation allows implementations to amortize in-memory storage
of scene assets, rendering work, data loading, and synchronization costs across
many simulation requests, dramatically improving the number of simulated agents
per GPU and overall simulation throughput. To balance DNN inference and
training costs with faster simulation, we also build a computationally
efficient policy DNN that maintains high task performance, and modify training
algorithms to maintain sample efficiency when training with large mini-batches.
By combining batch simulation and DNN performance optimizations, we demonstrate
that PointGoal navigation agents can be trained in complex 3D environments on a
single GPU in 1.5 days to 97% of the accuracy of agents trained on a prior
state-of-the-art system using a 64-GPU cluster over three days. We provide
open-source reference implementations of our batch 3D renderer and simulator to
facilitate incorporation of these ideas into RL systems.
- Abstract(参考訳): 我々は,視覚複雑な3d環境における深層強化学習に基づくトレーニングを,事前作業よりも2桁高速化し,単一のgpu上で19,000フレーム/秒,最大72,000フレーム/秒というエンドツーエンドのトレーニング速度を実現する。
このアプローチの鍵となる考え方は、"バッチシミュレーション"の原則に基づいて、3Dレンダラーと具体化されたナビゲーションシミュレータを設計することである。
バッチシミュレーションは、大量の作業を一度に公開するだけでなく、シーンアセットのインメモリストレージ、レンダリング作業、データローディング、同期コストを多くのシミュレーションリクエストで改善し、GPU当たりのシミュレーションエージェントの数と全体的なシミュレーションスループットを大幅に改善する。
DNN推論とトレーニングコストを高速なシミュレーションとバランスをとるために,タスク性能を向上する計算効率の高いポリシDNNを構築し,大規模なミニバッチでトレーニングする際のサンプル効率を維持するためのトレーニングアルゴリズムを修正した。
バッチシミュレーションとDNN性能最適化を組み合わせることで、ポイントゴールナビゲーションエージェントを1つのGPU上の複雑な3D環境で1.5日以内から97%の精度で3日間にわたって64-GPUクラスタを使用してトレーニングできることを示した。
バッチ3Dレンダラとシミュレータのオープンソースリファレンス実装を提供し、これらのアイデアをRLシステムに組み込むのを容易にする。
関連論文リスト
- Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - SciAI4Industry -- Solving PDEs for industry-scale problems with deep
learning [1.642765885524881]
ユーザによるHPCインフラストラクチャの管理を必要とせずに,クラウド上で並列にトレーニングデータをシミュレートする分散プログラミングAPIを導入する。
我々は3D Navier-Stokes方程式を解くために大規模ニューラルネットワークを訓練し、多孔質媒質中の3D CO2フローをシミュレーションする。
CO2の例では、商用の炭素捕獲・貯蔵(CCS)プロジェクトに基づくトレーニングデータセットをシミュレートし、従来の数値シミュレータよりも5桁高速で3200倍安い200万以上のセルを持つ3Dグリッド上で、CO2フローシミュレーションのためのニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2022-11-23T05:15:32Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - Parallel Reinforcement Learning Simulation for Visual Quadrotor
Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。
本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。
このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文 参考訳(メタデータ) (2022-09-22T15:27:42Z) - Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。
PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。
さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文 参考訳(メタデータ) (2021-10-20T17:06:09Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with
Asynchronous Reinforcement Learning [68.2099740607854]
サンプルファクトリー(Sample Factory)は、シングルマシン設定に最適化された高スループットトレーニングシステムである。
我々のアーキテクチャは、非常に効率的で非同期なGPUベースのサンプリングと、オフポリシー補正技術を組み合わせています。
我々は,Sample Factoryを拡張して,セルフプレイと人口ベーストレーニングをサポートし,これらのテクニックを多人数一対一シューティングゲームのための高度なエージェントの訓練に応用する。
論文 参考訳(メタデータ) (2020-06-21T10:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。