論文の概要: Collision Avoidance and Navigation for a Quadrotor Swarm Using End-to-end Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.13285v2
- Date: Mon, 6 May 2024 00:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:55:03.372884
- Title: Collision Avoidance and Navigation for a Quadrotor Swarm Using End-to-end Deep Reinforcement Learning
- Title(参考訳): エンド・ツー・エンド深部強化学習を用いたクアドロタースウォームの衝突回避とナビゲーション
- Authors: Zhehui Huang, Zhaojing Yang, Rahul Krupani, Baskın Şenbaşlar, Sumeet Batra, Gaurav S. Sukhatme,
- Abstract要約: 本研究では,障害物のある環境下での四元子群制御のためのエンドツーエンドDRL手法を提案する。
筆者らは, 障害物の多い環境下での性能向上を図るために, 衝突エピソードのカリキュラムと再生バッファを提供する。
我々の研究は、エンドツーエンドDRLで訓練された隣人回避および障害物回避制御ポリシーを学習する可能性を示す最初の研究である。
- 参考スコア(独自算出の注目度): 8.864432196281268
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end deep reinforcement learning (DRL) for quadrotor control promises many benefits -- easy deployment, task generalization and real-time execution capability. Prior end-to-end DRL-based methods have showcased the ability to deploy learned controllers onto single quadrotors or quadrotor teams maneuvering in simple, obstacle-free environments. However, the addition of obstacles increases the number of possible interactions exponentially, thereby increasing the difficulty of training RL policies. In this work, we propose an end-to-end DRL approach to control quadrotor swarms in environments with obstacles. We provide our agents a curriculum and a replay buffer of the clipped collision episodes to improve performance in obstacle-rich environments. We implement an attention mechanism to attend to the neighbor robots and obstacle interactions - the first successful demonstration of this mechanism on policies for swarm behavior deployed on severely compute-constrained hardware. Our work is the first work that demonstrates the possibility of learning neighbor-avoiding and obstacle-avoiding control policies trained with end-to-end DRL that transfers zero-shot to real quadrotors. Our approach scales to 32 robots with 80% obstacle density in simulation and 8 robots with 20% obstacle density in physical deployment. Video demonstrations are available on the project website at: https://sites.google.com/view/obst-avoid-swarm-rl.
- Abstract(参考訳): 四重項制御のためのエンドツーエンドの深層強化学習(DRL)は、デプロイの容易さ、タスクの一般化、リアルタイム実行能力など、多くのメリットを約束する。
従来のDRLベースの手法では、学習したコントローラを単一四角形または四角形にデプロイする能力が、シンプルで障害物のない環境で操作できることが示されていた。
しかし、障害が加わったことにより、可能な相互作用の数が指数関数的に増加し、RLポリシーのトレーニングが困難になる。
本研究では,障害物のある環境下での四元子群を制御するために,エンドツーエンドのDRL手法を提案する。
筆者らは, 障害物の多い環境下での性能向上を図るために, 衝突エピソードのカリキュラムと再生バッファを提供する。
我々は、隣接するロボットと障害物の相互作用に対応するための注意機構を実装し、このメカニズムを、厳密な計算制約のあるハードウェア上に展開するスウォーム行動ポリシーに関する最初の成功例を示す。
我々の研究は、ゼロショットを実四重項に転送するエンドツーエンドDRLで訓練された近隣回避および障害物回避制御ポリシーを学習する可能性を示す最初の研究である。
提案手法は,シミュレーションで80%の障害物密度を持つ32のロボットと,物理展開で20%の障害物密度を持つ8のロボットに拡張する。
ビデオデモはプロジェクトのWebサイト(https://sites.google.com/view/obst-avoid-swarm-rl)で公開されている。
関連論文リスト
- Whole-body end-effector pose tracking [10.426087117345096]
本研究では, 大規模作業空間におけるエンドエフェクタポーズトラッキングのための全身RL定式化手法を提案する。
提案手法は,ロボットの初期設定とエンドエフェクタポーズコマンドのための地形対応サンプリング戦略を含む。
展開時に2.64cmと3.64°のポーズ追跡誤差を達成し、既存の競争基準よりも優れている。
論文 参考訳(メタデータ) (2024-09-24T12:51:32Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Enhanced method for reinforcement learning based dynamic obstacle
avoidance by assessment of collision risk [0.0]
本稿では,障害物回避作業の難易度を制御できる一般的な訓練環境を提案する。
トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2022-12-08T07:46:42Z) - Scalable Task-Driven Robotic Swarm Control via Collision Avoidance and
Learning Mean-Field Control [23.494528616672024]
我々は、最先端平均場制御技術を用いて、多くのエージェントSwarm制御を分散の古典的な単一エージェント制御に変換する。
そこで我々は,衝突回避と平均場制御の学習を,知的ロボット群動作を牽引的に設計するための統一的な枠組みに統合する。
論文 参考訳(メタデータ) (2022-09-15T16:15:04Z) - Risk-based implementation of COLREGs for autonomous surface vehicles
using deep reinforcement learning [1.304892050913381]
深層強化学習(DRL)は幅広い応用の可能性を示している。
本研究は,海上衝突防止国際規則(COLREG)のサブセットをDRLに基づく経路追従と障害物回避システムに組み込んだものである。
得られた自律エージェントは、訓練シナリオ、孤立した遭遇状況、実世界のシナリオのAISに基づくシミュレーションにおいて、経路追従とCOLREG準拠の衝突回避を動的に補間する。
論文 参考訳(メタデータ) (2021-11-30T21:32:59Z) - Vision-Based Mobile Robotics Obstacle Avoidance With Deep Reinforcement
Learning [49.04274612323564]
障害物回避は、移動ロボットの自律ナビゲーションのための根本的かつ困難な問題です。
本稿では,ロボットが単一眼カメラにのみ依存しなければならない単純な3D環境における障害物回避の問題を検討する。
データ駆動型エンドツーエンドディープラーニングアプローチとして,障害回避問題に取り組む。
論文 参考訳(メタデータ) (2021-03-08T13:05:46Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。