論文の概要: QuadSwarm: A Modular Multi-Quadrotor Simulator for Deep Reinforcement
Learning with Direct Thrust Control
- arxiv url: http://arxiv.org/abs/2306.09537v1
- Date: Thu, 15 Jun 2023 22:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:36:53.995306
- Title: QuadSwarm: A Modular Multi-Quadrotor Simulator for Deep Reinforcement
Learning with Direct Thrust Control
- Title(参考訳): QuadSwarm: 直接スラスト制御による深部強化学習のためのモジュール型マルチクアドロータシミュレータ
- Authors: Zhehui Huang, Sumeet Batra, Tao Chen, Rahul Krupani, Tushar Kumar,
Artem Molchanov, Aleksei Petrenko, James A. Preiss, Zhaojing Yang, Gaurav S.
Sukhatme
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ロボティクスタスクの堅牢なポリシーを作成する上での約束である。
現代のRLアルゴリズムは、しばしば成功したポリシーをトレーニングするために何十億もの環境遷移を必要とする。
クアッドスワーム(QuadSwarm)は、クアッドロータ用のシングルロボットRLとマルチロボットRLの研究のための高速で信頼性の高いシミュレータである。
- 参考スコア(独自算出の注目度): 14.293280676715353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown promise in creating robust policies for
robotics tasks. However, contemporary RL algorithms are data-hungry, often
requiring billions of environment transitions to train successful policies.
This necessitates the use of fast and highly-parallelizable simulators. In
addition to speed, such simulators need to model the physics of the robots and
their interaction with the environment to a level acceptable for transferring
policies learned in simulation to reality. We present QuadSwarm, a fast,
reliable simulator for research in single and multi-robot RL for quadrotors
that addresses both issues. QuadSwarm, with fast forward-dynamics propagation
decoupled from rendering, is designed to be highly parallelizable such that
throughput scales linearly with additional compute. It provides multiple
components tailored toward multi-robot RL, including diverse training
scenarios, and provides domain randomization to facilitate the development and
sim2real transfer of multi-quadrotor control policies. Initial experiments
suggest that QuadSwarm achieves over 48,500 simulation samples per second (SPS)
on a single quadrotor and over 62,000 SPS on eight quadrotors on a 16-core CPU.
The code can be found in https://github.com/Zhehui-Huang/quad-swarm-rl.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロボティクスタスクの堅牢なポリシーを作成する上での約束である。
しかし、現代のRLアルゴリズムは、しばしば成功したポリシーを訓練するために何十億もの環境遷移を必要とする。
これは高速で並列性の高いシミュレータの使用を必要とする。
スピードに加えて、ロボットの物理と環境との相互作用をシミュレーションで学んだポリシーを現実に伝達するのに許容できるレベルにモデル化する必要がある。
両問題に対処する単一ロボットRLとマルチロボットRLの高速かつ信頼性の高いシミュレータであるQuadSwarmを提案する。
quadswarmは高速なフォワード・ダイナミックス伝播をレンダリングから切り離し、スループットが線形にスケールするように高度に並列化できるように設計されている。
多様なトレーニングシナリオを含むマルチロボットRLに適した複数のコンポーネントを提供し、マルチクワッドロータ制御ポリシの開発とシミュレートを容易にするためにドメインランダム化を提供する。
最初の実験から、QuadSwarmは1つの4乗子上で48,500以上のシミュレーションサンプルを毎秒達成し、16コアCPU上では8つの4乗子上で62,000以上のSPSを達成することが示唆された。
コードはhttps://github.com/zhehui-huang/quad-swarm-rlにある。
関連論文リスト
- Learning to Fly in Seconds [8.159171440455824]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - Parallel Reinforcement Learning Simulation for Visual Quadrotor
Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。
本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。
このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文 参考訳(メタデータ) (2022-09-22T15:27:42Z) - Learning a Single Near-hover Position Controller for Vastly Different
Quadcopters [56.37274861303324]
本稿では,クワッドコプターのための適応型ニアホバー位置制御器を提案する。
これは、非常に異なる質量、大きさ、運動定数を持つクワッドコプターに展開することができる。
また、実行中に未知の障害に迅速に適応する。
論文 参考訳(メタデータ) (2022-09-19T17:55:05Z) - QuadSim: A Quadcopter Rotational Dynamics Simulation Framework For
Reinforcement Learning Algorithms [0.0]
本研究は,数式に基づくクアッドコプター回転動力学シミュレーションフレームワークの設計と開発に焦点をあてる。
このフレームワークは、クワッドコプターの線形表現と非線形表現の両方をシミュレートすることを目的としている。
シミュレーション環境はOpenAI Gymツールキットと互換性を持つように拡張された。
論文 参考訳(メタデータ) (2022-02-14T20:34:08Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。