論文の概要: Separation Assurance between Heterogeneous Fleets of Small Unmanned Aerial Systems via Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.01041v3
- Date: Fri, 08 May 2026 13:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.540314
- Title: Separation Assurance between Heterogeneous Fleets of Small Unmanned Aerial Systems via Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習による小型無人航空システムの異種艦隊の分離保証
- Authors: Iman Sharifi, Hyeong Tae Kim, Maheed Hatem Ahmed, Mahsa Ghasemi, Peng Wei,
- Abstract要約: 将来の密集した都市空域では、複数の企業が小型無人航空機(sUAS)の異種艦隊を運用する。
本論は,(1)戦術的非衝突政策を収束させるか,あるいは均衡に到達して紛争のない空域を確保するかという,2つの中核的問題に対処することを目的とする。
テキサス州ダラスを横断するパッケージ配送ミッションにおいて,異種艦隊内の同種航空機を同時に運用するマルチエージェント強化学習パラダイムについて検討した。
- 参考スコア(独自算出の注目度): 8.547197070748066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the envisioned future dense urban airspace, multiple companies will operate heterogeneous fleets of small unmanned aerial systems (sUASs), where each fleet includes several homogeneous aircraft with identical policies and configurations, e.g., equipage, sensing, and communication ranges, making tactical deconfliction highly complex for the aircraft. This paper aims to address two core questions: (1) Can tactical deconfliction policies converge or reach an equilibrium to ensure a conflict-free airspace when companies operate heterogeneous fleets of homogeneous aircraft? (2) If so, will the converged policies discriminate against companies operating sUASs with weaker configurations? We investigate a multi-agent reinforcement learning paradigm in which homogeneous aircraft within heterogeneous fleets operate concurrently to perform package delivery missions over Dallas, Texas, USA. An attention-enhanced Proximal Policy Optimization-based Advantage Actor-Critic (PPOA2C) framework is employed to resolve intra- and inter-fleet conflicts, with each fleet independently training its own policy while preserving privacy. Experimental results show that two fleets with distinct, shared PPOA2C policies can reach an equilibrium to maintain safe separation. While two PPOA2C policies outperform two strong rule-based baselines in terms of conflict resolution, a PPOA2C policy exhibits safer interaction with a rule-based policy, indicating adaptive capabilities of PPOA2C policies. Furthermore, we conducted extensive policy-configuration evaluations, which reveal that equilibria between similar policy types tend to favor fleets with stronger configurations. Even under similar configurations but different policy types, the equilibrium favors one of the heterogeneous policies, underscoring the need for fairness-aware conflict management in heterogeneous sUAS operations.
- Abstract(参考訳): 将来の密集した都市空域では、複数の企業が小型無人航空機(sUAS)の異種艦隊を運用し、各艦隊は同一の方針と構成を持つ複数の同種航空機(例えば、同値、センシング、通信範囲)を保有する。
本論は, 企業が同質航空機の異種艦隊を運用する場合に, 戦術的非衝突政策を収束させるか, 均衡に達するか, 無衝突空域を確保するか, という2つの問題に対処することを目的とする。
2もしそうなら、より弱い構成のsUASを運営している企業に対して、収束政策は差別するだろうか。
テキサス州ダラスを横断するパッケージ配送ミッションにおいて,異種艦隊内の同種航空機を同時に運用するマルチエージェント強化学習パラダイムについて検討した。
PPOA2C(Advantage Actor-Critic)フレームワークは、プライバシを保ちながら、各艦隊が独自に独自のポリシーをトレーニングし、艦隊内および艦隊間の紛争を解決するために使用される。
実験の結果、異なる共有PPOA2Cポリシーを持つ2つの艦隊が安全な分離を維持するために平衡に達することが示されている。
2つのPPOA2Cポリシーは、紛争解決の観点から2つの強力なルールベースのベースラインを上回っている一方、PPOA2Cポリシーはルールベースのポリシーとのより安全な相互作用を示し、PPOA2Cポリシーの適応能力を示している。
さらに、同様の政策タイプ間の均衡は、より強い構成の艦隊を好む傾向にあることを示す、広範な政策構成評価を行った。
同様の構成だが異なる政策タイプの下でも、均衡は不均一な政策の1つを好んでおり、不均一なsUAS運用における公正な紛争管理の必要性を強調している。
関連論文リスト
- Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems [3.3091223236295213]
低高度空域における小型無人航空システム(SUAS)は、安全臨界条件下での信頼性の高い戦術的不信の必要性を高めている。
本稿では, 大規模言語モデル (LLMs) を, 微調整戦略を用いた協調的マルチエージェント・戦術デコンフリクションの意思決定者として検討する。
論文 参考訳(メタデータ) (2026-03-30T15:22:27Z) - Co2PO: Coordinated Constrained Policy Optimization for Multi-Agent RL [0.0]
我々は,Co2POを提案する。Co2POは,選択的かつリスク対応のコミュニケーションを通じて協調駆動型安全を実現する新しいフレームワークである。
Co2POは、学習されたハザード予測器によって制御される位置意図と利得信号を放送するための共有ブラックボードアーキテクチャを導入している。
我々は,Co2POを,制約付きベースラインよりも高いリターンを達成する複雑なマルチエージェント安全ベンチマーク群で評価した。
論文 参考訳(メタデータ) (2026-02-03T01:09:31Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach [0.6533458718563319]
オフ・ポリティクスの手法は、高価で安全でない現実世界の微調整を最小化するための重要な特徴である、高いサンプル効率を約束する。
オン・ポリティクス法は、しばしばより優れた訓練安定性を示すが、これはハザード・センス環境における信頼性の高い収束に不可欠である。
この研究は、高精度で安全クリティカルなナビゲーションタスクにおいて、確立されたオン・ポリティクスの信頼性の高い収束は、オフ・ポリティック・アルゴリズムの特異なサンプル効率よりも決定的であることを示す。
論文 参考訳(メタデータ) (2025-08-22T21:29:59Z) - Data-Driven Distributed Common Operational Picture from Heterogeneous Platforms using Multi-Agent Reinforcement Learning [1.3469274919926262]
無人プラットフォームの統合は、状況認識を高め、軍事作戦における「戦争の霧」を軽減することを約束する。
これらのプラットフォームからの膨大なデータの流入を管理することは、Command and Control (C2)システムにとって大きな課題となる。
本研究では,この課題に対処する新しいマルチエージェント学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T16:31:22Z) - Prioritized League Reinforcement Learning for Large-Scale Heterogeneous Multiagent Systems [11.017749510087059]
本稿では,大規模な異種協調問題に対処する優先的不均一リーグ強化学習(PHLRL)手法を提案する。
We use Unreal Engine to design a Large-scale Multiagent Operation (LSMO)。
論文 参考訳(メタデータ) (2024-03-26T19:21:50Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。