論文の概要: QuadSwarm: A Modular Multi-Quadrotor Simulator for Deep Reinforcement
Learning with Direct Thrust Control
- arxiv url: http://arxiv.org/abs/2306.09537v1
- Date: Thu, 15 Jun 2023 22:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:36:53.995306
- Title: QuadSwarm: A Modular Multi-Quadrotor Simulator for Deep Reinforcement
Learning with Direct Thrust Control
- Title(参考訳): QuadSwarm: 直接スラスト制御による深部強化学習のためのモジュール型マルチクアドロータシミュレータ
- Authors: Zhehui Huang, Sumeet Batra, Tao Chen, Rahul Krupani, Tushar Kumar,
Artem Molchanov, Aleksei Petrenko, James A. Preiss, Zhaojing Yang, Gaurav S.
Sukhatme
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ロボティクスタスクの堅牢なポリシーを作成する上での約束である。
現代のRLアルゴリズムは、しばしば成功したポリシーをトレーニングするために何十億もの環境遷移を必要とする。
クアッドスワーム(QuadSwarm)は、クアッドロータ用のシングルロボットRLとマルチロボットRLの研究のための高速で信頼性の高いシミュレータである。
- 参考スコア(独自算出の注目度): 14.293280676715353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown promise in creating robust policies for
robotics tasks. However, contemporary RL algorithms are data-hungry, often
requiring billions of environment transitions to train successful policies.
This necessitates the use of fast and highly-parallelizable simulators. In
addition to speed, such simulators need to model the physics of the robots and
their interaction with the environment to a level acceptable for transferring
policies learned in simulation to reality. We present QuadSwarm, a fast,
reliable simulator for research in single and multi-robot RL for quadrotors
that addresses both issues. QuadSwarm, with fast forward-dynamics propagation
decoupled from rendering, is designed to be highly parallelizable such that
throughput scales linearly with additional compute. It provides multiple
components tailored toward multi-robot RL, including diverse training
scenarios, and provides domain randomization to facilitate the development and
sim2real transfer of multi-quadrotor control policies. Initial experiments
suggest that QuadSwarm achieves over 48,500 simulation samples per second (SPS)
on a single quadrotor and over 62,000 SPS on eight quadrotors on a 16-core CPU.
The code can be found in https://github.com/Zhehui-Huang/quad-swarm-rl.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロボティクスタスクの堅牢なポリシーを作成する上での約束である。
しかし、現代のRLアルゴリズムは、しばしば成功したポリシーを訓練するために何十億もの環境遷移を必要とする。
これは高速で並列性の高いシミュレータの使用を必要とする。
スピードに加えて、ロボットの物理と環境との相互作用をシミュレーションで学んだポリシーを現実に伝達するのに許容できるレベルにモデル化する必要がある。
両問題に対処する単一ロボットRLとマルチロボットRLの高速かつ信頼性の高いシミュレータであるQuadSwarmを提案する。
quadswarmは高速なフォワード・ダイナミックス伝播をレンダリングから切り離し、スループットが線形にスケールするように高度に並列化できるように設計されている。
多様なトレーニングシナリオを含むマルチロボットRLに適した複数のコンポーネントを提供し、マルチクワッドロータ制御ポリシの開発とシミュレートを容易にするためにドメインランダム化を提供する。
最初の実験から、QuadSwarmは1つの4乗子上で48,500以上のシミュレーションサンプルを毎秒達成し、16コアCPU上では8つの4乗子上で62,000以上のSPSを達成することが示唆された。
コードはhttps://github.com/zhehui-huang/quad-swarm-rlにある。
関連論文リスト
- An Open-source Sim2Real Approach for Sensor-independent Robot Navigation in a Grid [0.0]
シミュレーション環境で訓練されたエージェントと、同様の環境でロボットをナビゲートする実際の実装とのギャップを橋渡しする。
具体的には、Gymnasium Frozen Lakeにインスパイアされた現実世界のグリッドのような環境で四足歩行ロボットをナビゲートすることに焦点を当てる。
論文 参考訳(メタデータ) (2024-11-05T20:18:29Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [48.17611255751571]
ポストトレーニングは、大きな言語モデルが人間の指示に従うことを可能にするために不可欠である。
マルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成する。
本稿では,シナリオ駆動型命令生成器MATRIX-Genを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Learning Quadruped Locomotion Using Differentiable Simulation [31.80380408663424]
微分可能シミュレーションは、高速収束と安定した訓練を約束する。
本研究はこれらの課題を克服するための新しい微分可能シミュレーションフレームワークを提案する。
我々のフレームワークは並列化なしで数分で四足歩行を学習できる。
論文 参考訳(メタデータ) (2024-03-21T22:18:59Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Parallel Reinforcement Learning Simulation for Visual Quadrotor
Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。
本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。
このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文 参考訳(メタデータ) (2022-09-22T15:27:42Z) - Learning a Single Near-hover Position Controller for Vastly Different
Quadcopters [56.37274861303324]
本稿では,クワッドコプターのための適応型ニアホバー位置制御器を提案する。
これは、非常に異なる質量、大きさ、運動定数を持つクワッドコプターに展開することができる。
また、実行中に未知の障害に迅速に適応する。
論文 参考訳(メタデータ) (2022-09-19T17:55:05Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。