論文の概要: Learning to Fly -- a Gym Environment with PyBullet Physics for
Reinforcement Learning of Multi-agent Quadcopter Control
- arxiv url: http://arxiv.org/abs/2103.02142v1
- Date: Wed, 3 Mar 2021 02:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 14:48:39.336486
- Title: Learning to Fly -- a Gym Environment with PyBullet Physics for
Reinforcement Learning of Multi-agent Quadcopter Control
- Title(参考訳): 飛べる学習--多エージェントクワッドコプター制御の強化学習のためのパイブルレット物理を用いた体育環境
- Authors: Jacopo Panerati (1 and 2), Hehui Zheng (3), SiQi Zhou (1 and 2), James
Xu (1), Amanda Prorok (3), Angela P. Schoellig (1 and 2) ((1) University of
Toronto Institute for Aerospace Studies, (2) Vector Institute for Artificial
Intelligence, (3) University of Cambridge)
- Abstract要約: 本稿では,Bullet物理エンジンに基づく複数クワッドコプターのオープンソース環境を提案する。
マルチエージェントおよびビジョンベースの強化学習インターフェース、および現実的な衝突と空力効果のサポートは、私たちの知識の最高に、その種の最初のものにします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic simulators are crucial for academic research and education as well as
the development of safety-critical applications. Reinforcement learning
environments -- simple simulations coupled with a problem specification in the
form of a reward function -- are also important to standardize the development
(and benchmarking) of learning algorithms. Yet, full-scale simulators typically
lack portability and parallelizability. Vice versa, many reinforcement learning
environments trade-off realism for high sample throughputs in toy-like
problems. While public data sets have greatly benefited deep learning and
computer vision, we still lack the software tools to simultaneously develop --
and fairly compare -- control theory and reinforcement learning approaches. In
this paper, we propose an open-source OpenAI Gym-like environment for multiple
quadcopters based on the Bullet physics engine. Its multi-agent and vision
based reinforcement learning interfaces, as well as the support of realistic
collisions and aerodynamic effects, make it, to the best of our knowledge, a
first of its kind. We demonstrate its use through several examples, either for
control (trajectory tracking with PID control, multi-robot flight with
downwash, etc.) or reinforcement learning (single and multi-agent stabilization
tasks), hoping to inspire future research that combines control theory and
machine learning.
- Abstract(参考訳): ロボットシミュレータは、学術研究と教育、および安全クリティカルなアプリケーションの開発に不可欠です。
強化学習環境 -- 報酬関数の形で問題仕様と結合した単純なシミュレーション -- もまた、学習アルゴリズムの開発(およびベンチマーク)を標準化する上で重要である。
しかし、フルスケールのシミュレータは移植性と並列性に欠ける。
逆に、多くの強化学習環境は、おもちゃのような問題における高いサンプルスループットのためのトレードオフリアリズムである。
パブリックデータセットはディープラーニングとコンピュータビジョンに大きく貢献していますが、制御理論と強化学習アプローチを同時に開発し、比較するソフトウェアツールはまだありません。
本稿では,Bullet物理エンジンに基づく複数クワッドコプターのためのオープンソースのOpenAI Gymライクな環境を提案する。
マルチエージェントおよびビジョンベースの強化学習インターフェース、および現実的な衝突と空力効果のサポートは、私たちの知識の最高に、その種の最初のものにします。
我々は、制御(pid制御による軌道追跡、ダウンウォッシュによるマルチロボット飛行など)の例を通して、その使用例を実証する。
または強化学習(単一および複数エージェント安定化タスク)、制御理論と機械学習を組み合わせた将来の研究を刺激することを望んでいます。
関連論文リスト
- Multi-Objective Algorithms for Learning Open-Ended Robotic Problems [1.0124625066746598]
四足歩行は、自動運転車の普及に不可欠な複雑でオープンな問題である。
従来の強化学習アプローチは、トレーニングの不安定性とサンプルの非効率のため、しばしば不足する。
自動カリキュラム学習機構として多目的進化アルゴリズムを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T16:26:42Z) - Multi-Agent Reinforcement Learning for Autonomous Driving: A Survey [14.73689900685646]
強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定のための強力なツールであり、人間の能力を超えるパフォーマンスを達成した。
マルチエージェントシステム領域におけるRLの拡張として、マルチエージェントRL(MARL)は制御ポリシーを学ぶだけでなく、環境内の他のすべてのエージェントとの相互作用についても考慮する必要がある。
シミュレーターは、RLの基本である現実的なデータを得るのに不可欠である。
論文 参考訳(メタデータ) (2024-08-19T03:31:20Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Flashlight: Enabling Innovation in Tools for Machine Learning [50.63188263773778]
私たちは、機械学習ツールやシステムの革新を促進するために構築されたオープンソースのライブラリであるFlashlightを紹介します。
Flashlightは、広く使われているライブラリを下流で活用し、機械学習とシステム研究者をより緊密に連携させる研究を可能にするツールだと考えています。
論文 参考訳(メタデータ) (2022-01-29T01:03:29Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z) - Learning to Fly via Deep Model-Based Reinforcement Learning [37.37420200406336]
モデルベース強化学習により, 四角子に対する推力制御系を学習する。
を1台のドローンで30分未満の経験で達成できることが示されています。
論文 参考訳(メタデータ) (2020-03-19T15:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。