Fugu-MT 論文翻訳(概要): Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning

論文の概要: Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning

arxiv url: http://arxiv.org/abs/2006.11751v2
Date: Tue, 23 Jun 2020 00:41:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 11:30:50.404664
Title: Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning
Title（参考訳）: サンプルファクトリ: 非同期強化学習による10000FPSの画素中心3D制御
Authors: Aleksei Petrenko, Zhehui Huang, Tushar Kumar, Gaurav Sukhatme, Vladlen Koltun
Abstract要約: サンプルファクトリー(Sample Factory)は、シングルマシン設定に最適化された高スループットトレーニングシステムである。我々のアーキテクチャは、非常に効率的で非同期なGPUベースのサンプリングと、オフポリシー補正技術を組み合わせています。我々は,Sample Factoryを拡張して,セルフプレイと人口ベーストレーニングをサポートし,これらのテクニックを多人数一対一シューティングゲームのための高度なエージェントの訓練に応用する。
参考スコア（独自算出の注目度）: 68.2099740607854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Increasing the scale of reinforcement learning experiments has allowed researchers to achieve unprecedented results in both training sophisticated agents for video games, and in sim-to-real transfer for robotics. Typically such experiments rely on large distributed systems and require expensive hardware setups, limiting wider access to this exciting area of research. In this work we aim to solve this problem by optimizing the efficiency and resource utilization of reinforcement learning algorithms instead of relying on distributed computation. We present the "Sample Factory", a high-throughput training system optimized for a single-machine setting. Our architecture combines a highly efficient, asynchronous, GPU-based sampler with off-policy correction techniques, allowing us to achieve throughput higher than $10^5$ environment frames/second on non-trivial control problems in 3D without sacrificing sample efficiency. We extend Sample Factory to support self-play and population-based training and apply these techniques to train highly capable agents for a multiplayer first-person shooter game. The source code is available at https://github.com/alex-petrenko/sample-factory
Abstract（参考訳）: 強化学習実験の規模が大きくなると、研究者たちはビデオゲームの高度なエージェントの訓練や、ロボット工学のシミュレートから現実への移行において、前例のない成果を得られるようになった。通常、このような実験は大規模な分散システムに依存し、高価なハードウェアのセットアップを必要とし、このエキサイティングな研究領域への幅広いアクセスを制限する。本研究では,分散計算に頼らずに強化学習アルゴリズムの効率と資源利用を最適化することで,この問題を解決することを目的とする。我々は,シングルマシン設定に最適化された高スループットトレーニングシステム「サンプルファクトリー」を提案する。我々のアーキテクチャは、高効率で非同期なGPUベースのサンプリングとオフポリシー補正技術を組み合わせることで、サンプル効率を犠牲にすることなく、3Dの非自明な制御問題に対して10^5$環境フレーム/秒以上のスループットを実現することができる。サンプルファクトリーを拡張して,自己プレイと人口ベースのトレーニングをサポートし,マルチプレイヤー・ファーストパーソン・シューティングゲームの高能力エージェントを訓練する。ソースコードはhttps://github.com/alex-petrenko/sample-factoryで入手できる。

関連論文リスト

Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。実験の結果,MARL法は標準単エージェントRLよりも30～300倍効率が向上した。
論文参考訳（メタデータ） (2025-07-22T05:51:07Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。 MenTORは3つのシミュレーションベンチマークで最先端の手法を上回り、挑戦的な3つの現実世界のロボット操作タスクで平均83%の成功率を達成した。
論文参考訳（メタデータ） (2024-10-19T04:31:54Z)
OccGaussian: 3D Gaussian Splatting for Occluded Human Rendering [55.50438181721271]
表面レンダリングにNeRFを用いた従来手法では,閉鎖領域の復元には1日以上,閉塞領域のレンダリングには数秒を要していた。 OccGaussianは3D Gaussian Splattingをベースとして6分以内でトレーニングが可能で,最大160FPSまでの高品質な人体レンダリングを実現する。
論文参考訳（メタデータ） (2024-04-12T13:00:06Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文参考訳（メタデータ） (2023-10-04T07:56:42Z)
Efficient Training for Visual Tracking with Deformable Transformer [0.0]
本稿では、エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを紹介する。本フレームワークは、変形可能なトランスデコーダがターゲットヘッドとして機能する効率的なエンコーダ・デコーダ構造を用いる。トレーニングには,新しい1対多ラベルの割り当てと補助的認知技術を導入する。
論文参考訳（メタデータ） (2023-09-06T03:07:43Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文参考訳（メタデータ） (2021-09-27T12:42:05Z)
Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文参考訳（メタデータ） (2021-03-12T00:22:50Z)
Accelerating Deep Neuroevolution on Distributed FPGAs for Reinforcement Learning Problems [0.7734726150561088]
分散FPGA上に実装された深部神経進化を用いたAtari 2600のトレーニング時間(毎秒100万フレーム)を報告する。結果は、IBM Neural Computerにおける最初のアプリケーションデモである。
論文参考訳（メタデータ） (2020-05-10T00:41:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。