論文の概要: Distributed Area Coverage with High Altitude Balloons Using Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.03823v1
- Date: Sat, 04 Oct 2025 14:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.278294
- Title: Distributed Area Coverage with High Altitude Balloons Using Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習を用いた高高度気球による地域被覆
- Authors: Adam Haroon, Tristan Schuler,
- Abstract要約: 高高度気球(HAB)は、成層圏の風層を利用して水平制御を制限し、偵察、環境モニタリング、通信ネットワークに応用することができる。
既存のマルチエージェントHABコーディネートアプローチでは、Voron partitioningoiやExtremumといった決定論的手法を用いて、大域の星座を制御している。
本研究は,マルチエージェント強化学習(MARL)のHABコーディネーションへの最初の体系的応用について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High Altitude Balloons (HABs) can leverage stratospheric wind layers for limited horizontal control, enabling applications in reconnaissance, environmental monitoring, and communications networks. Existing multi-agent HAB coordination approaches use deterministic methods like Voronoi partitioning and extremum seeking control for large global constellations, which perform poorly for smaller teams and localized missions. While single-agent HAB control using reinforcement learning has been demonstrated on HABs, coordinated multi-agent reinforcement learning (MARL) has not yet been investigated. This work presents the first systematic application of multi-agent reinforcement learning (MARL) to HAB coordination for distributed area coverage. We extend our previously developed reinforcement learning simulation environment (RLHAB) to support cooperative multi-agent learning, enabling multiple agents to operate simultaneously in realistic atmospheric conditions. We adapt QMIX for HAB area coverage coordination, leveraging Centralized Training with Decentralized Execution to address atmospheric vehicle coordination challenges. Our approach employs specialized observation spaces providing individual state, environmental context, and teammate data, with hierarchical rewards prioritizing coverage while encouraging spatial distribution. We demonstrate that QMIX achieves similar performance to the theoretically optimal geometric deterministic method for distributed area coverage, validating the MARL approach and providing a foundation for more complex autonomous multi-HAB missions where deterministic methods become intractable.
- Abstract(参考訳): 高高度気球(HAB)は、成層圏の風層を利用して水平制御を制限し、偵察、環境モニタリング、通信ネットワークに応用することができる。
既存のマルチエージェントHABコーディネーションアプローチでは、ヴォロノイ分割や極端に大域の星座の制御を求める決定論的手法を用いており、より小さなチームや局部的なミッションでは不十分である。
強化学習を用いた単エージェントHAB制御がHAB上で実証されているが、協調型マルチエージェント強化学習(MARL)はまだ研究されていない。
本研究は,マルチエージェント強化学習(MARL)のHABコーディネーションへの最初の体系的応用について述べる。
我々は,これまで開発した強化学習シミュレーション環境(RLHAB)を拡張し,協調型マルチエージェント学習をサポートし,現実的な大気条件下で複数のエージェントが同時に動作できるようにする。
我々は、大気中の車両調整の課題に対処するために、中央集権訓練と分散実行を活用して、HABエリアカバレッジ調整にQMIXを適用した。
提案手法では,個々の状態,環境状況,チームメイトデータを提供する専門的な観測空間を用いて,空間分布を奨励しながらカバレッジを優先する階層的な報酬を与える。
我々は,QMIXが分散領域被覆に対する理論的に最適な幾何決定論的手法と類似した性能を達成し,MARLアプローチを検証し,決定論的手法が難解になるようなより複雑な自律型マルチHABミッションの基盤を提供することを示した。
関連論文リスト
- Decentralized Consensus Inference-based Hierarchical Reinforcement Learning for Multi-Constrained UAV Pursuit-Evasion Game [0.0]
探索回避ゲーム(MC-PEG)における協調的侵入・形成包括作業は,最も困難な課題の1つである。
本稿では,障害物回避,ナビゲーション,形成を管理するための低レベル政策を採用しながら,ローカライゼーションを高レベルポリシーに委譲する新しい2レベルフレームワークを提案する。
高忠実度ソフトウェア・イン・ザ・ループ(SITL)シミュレーションを含む実験結果は、CI-HRLがSwarmの協調回避とタスク補完機能を強化した優れたソリューションを提供することを示す。
論文 参考訳(メタデータ) (2025-06-22T18:23:58Z) - Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Stateful active facilitator: Coordination and Environmental
Heterogeneity in Cooperative Multi-Agent Reinforcement Learning [71.53769213321202]
環境の調整レベルと不均一度の概念を定式化する。
異なるMARLアプローチの実証評価を容易にするマルチエージェント環境のスイートであるHECOGridを提案する。
本研究では,エージェントが高配向環境と高配向環境において効率的に作業することを可能にする訓練分散実行学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T18:17:01Z) - Toward multi-target self-organizing pursuit in a partially observable
Markov game [34.22625222101752]
本研究では,探索・追従における暗黙的協調機能を改善するために,分散化されたマルチエージェントシステムのためのフレームワークを提案する。
我々は,大規模な分散化,部分的な観察,非コミュニケーションを特徴とする,部分的に観測可能なマルコフゲーム(POMG)として自己組織化システムをモデル化する。
提案した分散アルゴリズムは, ファジィ自己組織化協調共進化(FSC2)を利用して, マルチターゲットSOPにおける3つの課題を解決する。
論文 参考訳(メタデータ) (2022-06-24T14:59:56Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。