論文の概要: Decentralized Aerial Manipulation of a Cable-Suspended Load using Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.01522v1
- Date: Sat, 02 Aug 2025 23:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.922637
- Title: Decentralized Aerial Manipulation of a Cable-Suspended Load using Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習を用いたケーブル懸架荷重の分散空気マニピュレーション
- Authors: Jack Zeng, Andreu Matoses Gimenez, Eugene Vinitsky, Javier Alonso-Mora, Sihao Sun,
- Abstract要約: 本稿では, マイクロ空力車(MAV)チームを用いて, ケーブルサスペンション負荷の実世界の6-DoF操作を可能にする最初の分散化手法を提案する。
提案手法はマルチエージェント強化学習(MARL)を利用して,MAV毎に外部ループ制御ポリシーを訓練する。
本研究では,負荷モデルの不確実性を考慮した実世界の実環境実験において,本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 16.195474619148793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the first decentralized method to enable real-world 6-DoF manipulation of a cable-suspended load using a team of Micro-Aerial Vehicles (MAVs). Our method leverages multi-agent reinforcement learning (MARL) to train an outer-loop control policy for each MAV. Unlike state-of-the-art controllers that utilize a centralized scheme, our policy does not require global states, inter-MAV communications, nor neighboring MAV information. Instead, agents communicate implicitly through load pose observations alone, which enables high scalability and flexibility. It also significantly reduces computing costs during inference time, enabling onboard deployment of the policy. In addition, we introduce a new action space design for the MAVs using linear acceleration and body rates. This choice, combined with a robust low-level controller, enables reliable sim-to-real transfer despite significant uncertainties caused by cable tension during dynamic 3D motion. We validate our method in various real-world experiments, including full-pose control under load model uncertainties, showing setpoint tracking performance comparable to the state-of-the-art centralized method. We also demonstrate cooperation amongst agents with heterogeneous control policies, and robustness to the complete in-flight loss of one MAV. Videos of experiments: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
- Abstract(参考訳): 本稿では,MAV(Micro-Aerial Vehicles)チームを用いて,ケーブルサスペンション負荷のリアルタイム6-DoF操作を実現するための,最初の分散化手法を提案する。
提案手法はマルチエージェント強化学習(MARL)を利用して,MAV毎に外部ループ制御ポリシーを訓練する。
集中型スキームを利用する最先端のコントローラとは異なり、我々のポリシーはグローバルな状態やMAV間通信、近隣のMAV情報を必要としない。
代わりに、エージェントはロードポーズの観察だけで暗黙的に通信し、高いスケーラビリティと柔軟性を実現する。
また、推論時間における計算コストを大幅に削減し、ポリシのオンボード展開を可能にします。
さらに、線形加速度とボディレートを用いたMAVのための新しいアクション空間設計を提案する。
この選択は、堅牢な低レベルコントローラと組み合わせることで、動的3次元動作中にケーブル張力によって生じる重大な不確実性にもかかわらず、信頼性の高いsim-to-real転送を可能にする。
我々は,負荷モデルの不確実性下での完全な位置制御を含む実世界の様々な実験において,本手法の有効性を検証し,現状の集中型手法に匹敵するセットポイント追跡性能を示す。
また、異種制御ポリシを持つエージェント間の協調や、1機のMAVの飛行中損失に対する堅牢性も示す。
実験のビデオ:https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
関連論文リスト
- Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - A comparison of RL-based and PID controllers for 6-DOF swimming robots:
hybrid underwater object tracking [8.362739554991073]
本稿では,PIDコントローラの代替として,集中型深層Q-network(DQN)コントローラを用いた調査と評価を行う。
我々の主な焦点は、この遷移を水中物体追跡の特定のケースで説明することに集中している。
本実験は,Unityをベースとしたシミュレータで実施し,分離したPIDコントローラ上での集中型RLエージェントの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-29T23:14:15Z) - Actuator Trajectory Planning for UAVs with Overhead Manipulator using
Reinforcement Learning [0.3222802562733786]
制御可能なアームを備えたUAVを2自由度で開発し、飛行中に作動作業を行う。
我々のソリューションは、腕の先端の軌跡を制御するためのQ-learning法(End-effector)を用いています。
提案手法は,15,000エピソードのQ-ラーニングを用いて,平均変位誤差の92%の精度を実現する。
論文 参考訳(メタデータ) (2023-08-24T15:06:23Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - A Modular and Transferable Reinforcement Learning Framework for the
Fleet Rebalancing Problem [2.299872239734834]
モデルフリー強化学習(RL)に基づく艦隊再バランスのためのモジュラーフレームワークを提案する。
動作領域のグリッド上の分布としてRL状態とアクション空間を定式化し,フレームワークをスケーラブルにする。
実世界の旅行データとネットワークデータを用いた数値実験は、このアプローチがベースライン法よりもいくつかの異なる利点があることを実証している。
論文 参考訳(メタデータ) (2021-05-27T16:32:28Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Leveraging the Capabilities of Connected and Autonomous Vehicles and
Multi-Agent Reinforcement Learning to Mitigate Highway Bottleneck Congestion [2.0010674945048468]
RLをベースとしたマルチエージェントCAV制御モデルを提案する。
その結果、CAVのシェアが10%以下である場合でも、CAVはハイウェイ交通のボトルネックを著しく軽減することができることが示唆された。
論文 参考訳(メタデータ) (2020-10-12T03:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。