論文の概要: Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with
Asynchronous Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.11751v2
- Date: Tue, 23 Jun 2020 00:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 11:30:50.404664
- Title: Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with
Asynchronous Reinforcement Learning
- Title(参考訳): サンプルファクトリ: 非同期強化学習による10000FPSの画素中心3D制御
- Authors: Aleksei Petrenko, Zhehui Huang, Tushar Kumar, Gaurav Sukhatme, Vladlen
Koltun
- Abstract要約: サンプルファクトリー(Sample Factory)は、シングルマシン設定に最適化された高スループットトレーニングシステムである。
我々のアーキテクチャは、非常に効率的で非同期なGPUベースのサンプリングと、オフポリシー補正技術を組み合わせています。
我々は,Sample Factoryを拡張して,セルフプレイと人口ベーストレーニングをサポートし,これらのテクニックを多人数一対一シューティングゲームのための高度なエージェントの訓練に応用する。
- 参考スコア(独自算出の注目度): 68.2099740607854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing the scale of reinforcement learning experiments has allowed
researchers to achieve unprecedented results in both training sophisticated
agents for video games, and in sim-to-real transfer for robotics. Typically
such experiments rely on large distributed systems and require expensive
hardware setups, limiting wider access to this exciting area of research. In
this work we aim to solve this problem by optimizing the efficiency and
resource utilization of reinforcement learning algorithms instead of relying on
distributed computation. We present the "Sample Factory", a high-throughput
training system optimized for a single-machine setting. Our architecture
combines a highly efficient, asynchronous, GPU-based sampler with off-policy
correction techniques, allowing us to achieve throughput higher than $10^5$
environment frames/second on non-trivial control problems in 3D without
sacrificing sample efficiency. We extend Sample Factory to support self-play
and population-based training and apply these techniques to train highly
capable agents for a multiplayer first-person shooter game. The source code is
available at https://github.com/alex-petrenko/sample-factory
- Abstract(参考訳): 強化学習実験の規模が大きくなると、研究者たちはビデオゲームの高度なエージェントの訓練や、ロボット工学のシミュレートから現実への移行において、前例のない成果を得られるようになった。
通常、このような実験は大規模な分散システムに依存し、高価なハードウェアのセットアップを必要とし、このエキサイティングな研究領域への幅広いアクセスを制限する。
本研究では,分散計算に頼らずに強化学習アルゴリズムの効率と資源利用を最適化することで,この問題を解決することを目的とする。
我々は,シングルマシン設定に最適化された高スループットトレーニングシステム「サンプルファクトリー」を提案する。
我々のアーキテクチャは、高効率で非同期なGPUベースのサンプリングとオフポリシー補正技術を組み合わせることで、サンプル効率を犠牲にすることなく、3Dの非自明な制御問題に対して10^5$環境フレーム/秒以上のスループットを実現することができる。
サンプルファクトリーを拡張して,自己プレイと人口ベースのトレーニングをサポートし,マルチプレイヤー・ファーストパーソン・シューティングゲームの高能力エージェントを訓練する。
ソースコードはhttps://github.com/alex-petrenko/sample-factoryで入手できる。
関連論文リスト
- OccGaussian: 3D Gaussian Splatting for Occluded Human Rendering [55.50438181721271]
表面レンダリングにNeRFを用いた従来手法では,閉鎖領域の復元には1日以上,閉塞領域のレンダリングには数秒を要していた。
OccGaussianは3D Gaussian Splattingをベースとして6分以内でトレーニングが可能で,最大160FPSまでの高品質な人体レンダリングを実現する。
論文 参考訳(メタデータ) (2024-04-12T13:00:06Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Efficient Training for Visual Tracking with Deformable Transformer [0.0]
本稿では、エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを紹介する。
本フレームワークは、変形可能なトランスデコーダがターゲットヘッドとして機能する効率的なエンコーダ・デコーダ構造を用いる。
トレーニングには,新しい1対多ラベルの割り当てと補助的認知技術を導入する。
論文 参考訳(メタデータ) (2023-09-06T03:07:43Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - Accelerating Deep Neuroevolution on Distributed FPGAs for Reinforcement
Learning Problems [0.7734726150561088]
分散FPGA上に実装された深部神経進化を用いたAtari 2600のトレーニング時間(毎秒100万フレーム)を報告する。
結果は、IBM Neural Computerにおける最初のアプリケーションデモである。
論文 参考訳(メタデータ) (2020-05-10T00:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。