論文の概要: AC-MASAC: An Attentive Curriculum Learning Framework for Heterogeneous UAV Swarm Coordination
- arxiv url: http://arxiv.org/abs/2602.11735v1
- Date: Thu, 12 Feb 2026 09:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.388516
- Title: AC-MASAC: An Attentive Curriculum Learning Framework for Heterogeneous UAV Swarm Coordination
- Title(参考訳): AC-MASAC:不均一UAV群調整のための注意的カリキュラム学習フレームワーク
- Authors: Wanhao Liu, Junhong Dai, Yixuan Zhang, Shengyun Yin, Panshuo Li,
- Abstract要約: 本稿では,マルチエージェント強化学習(MARL)のための注意型カリキュラム学習フレームワーク(AC-MASAC)を提案する。
このフレームワークは、非対称な依存関係を明示的にモデル化するロールアウェアな異種注意機構を導入している。
構造化カリキュラム戦略を設計し、階層的な知識伝達と段階的な経験のリプレイを統合して、スパース報酬や破滅的な忘れ事の問題に対処する。
- 参考スコア(独自算出の注目度): 6.149520384858423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative path planning for heterogeneous UAV swarms poses significant challenges for Multi-Agent Reinforcement Learning (MARL), particularly in handling asymmetric inter-agent dependencies and addressing the risks of sparse rewards and catastrophic forgetting during training. To address these issues, this paper proposes an attentive curriculum learning framework (AC-MASAC). The framework introduces a role-aware heterogeneous attention mechanism to explicitly model asymmetric dependencies. Moreover, a structured curriculum strategy is designed, integrating hierarchical knowledge transfer and stage-proportional experience replay to address the issues of sparse rewards and catastrophic forgetting. The proposed framework is validated on a custom multi-agent simulation platform, and the results show that our method has significant advantages over other advanced methods in terms of Success Rate, Formation Keeping Rate, and Success-weighted Mission Time. The code is available at \textcolor{red}{https://github.com/Wanhao-Liu/AC-MASAC}.
- Abstract(参考訳): 不均一なUAV群に対する協調経路計画は、多エージェント強化学習(MARL)において重要な課題となり、特に非対称なエージェント間の依存関係を扱い、訓練中のスパース報酬や破滅的な忘れ込みのリスクに対処する。
これらの課題に対処するため,本研究では,注意深いカリキュラム学習フレームワーク(AC-MASAC)を提案する。
このフレームワークは、非対称な依存関係を明示的にモデル化するロールアウェアな異種注意機構を導入している。
さらに、階層的な知識伝達と段階的な経験を取り入れた構造化カリキュラム戦略を設計し、スパース報酬や破滅的な忘れ事の問題に対処する。
提案するフレームワークは, カスタムマルチエージェントシミュレーションプラットフォーム上で検証され, 提案手法は, 成功率, 生成維持率, 成功重み付けミッションタイムの点で, その他の先進手法よりも有意な優位性を有することが示された。
コードは \textcolor{red}{https://github.com/Wanhao-Liu/AC-MASAC} で公開されている。
関連論文リスト
- From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Preference-Guided Learning for Sparse-Reward Multi-Agent Reinforcement Learning [15.034714081414691]
少額の報酬のある環境におけるオンラインマルチエージェント強化学習(MARL)の課題について検討する。
中間報酬の欠如は、標準のMARLアルゴリズムがポリシー学習を効果的に導くのを妨げる。
本稿では,オンライン・逆選好学習とマルチエージェント・オン・ポリシー最適化を統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T03:41:40Z) - Decentralized Consensus Inference-based Hierarchical Reinforcement Learning for Multi-Constrained UAV Pursuit-Evasion Game [0.0]
探索回避ゲーム(MC-PEG)における協調的侵入・形成包括作業は,最も困難な課題の1つである。
本稿では,障害物回避,ナビゲーション,形成を管理するための低レベル政策を採用しながら,ローカライゼーションを高レベルポリシーに委譲する新しい2レベルフレームワークを提案する。
高忠実度ソフトウェア・イン・ザ・ループ(SITL)シミュレーションを含む実験結果は、CI-HRLがSwarmの協調回避とタスク補完機能を強化した優れたソリューションを提供することを示す。
論文 参考訳(メタデータ) (2025-06-22T18:23:58Z) - HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding [16.36594480478895]
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
論文 参考訳(メタデータ) (2024-02-23T13:01:13Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。