論文の概要: Multi-AUV Cooperative Target Tracking Based on Supervised Diffusion-Aided Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.29426v1
- Date: Tue, 31 Mar 2026 08:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.354976
- Title: Multi-AUV Cooperative Target Tracking Based on Supervised Diffusion-Aided Multi-Agent Reinforcement Learning
- Title(参考訳): 教師付き拡散支援多エージェント強化学習に基づくマルチAUV協調目標追跡
- Authors: Jiaao Ma, Chuan Lin, Guangjie Han, Shengchao Zhu, Zhenyu Wang, Chen An,
- Abstract要約: 本稿では,グローバルトレーニングスケジューリング,マルチエージェント調整,ローカル意思決定,リアルタイム実行の4層からなる階層型MARLアーキテクチャを提案する。
1) 分離された経験プールによる非定常性軽減のための構造化経験リプレイによる二重決定アーキテクチャ,2) 拡散モデルの逆復調過程を誘導して収束を加速する高忠実度トレーニングサンプルを生成する教師付き学習機構,3) 行動クローン損失を組み込んだ外乱ロバストなポリシー学習により,高品質なリプレイ動作を導出し,不要なネットワーク更新を実現すること,の3つの革新を特徴とする。
- 参考スコア(独自算出の注目度): 19.584329065489893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, advances in underwater networking and multi-agent reinforcement learning (MARL) have significantly expanded multi-autonomous underwater vehicle (AUV) applications in marine exploration and target tracking. However, current MARL-driven cooperative tracking faces three critical challenges: 1) non-stationarity in decentralized coordination, where local policy updates destabilize teammates' observation spaces, preventing convergence; 2) sparse-reward exploration inefficiency from limited underwater visibility and constrained sensor ranges, causing high-variance learning; and 3) water disturbance fragility combined with handcrafted reward dependency that degrades real-world robustness under unmodeled hydrodynamic conditions. To address these challenges, this paper proposes a hierarchical MARL architecture comprising four layers: global training scheduling, multi-agent coordination, local decision-making, and real-time execution. This architecture optimizes task allocation and inter-AUV coordination through hierarchical decomposition. Building on this foundation, we propose the Supervised Diffusion-Aided MARL (SDA-MARL) algorithm featuring three innovations: 1) a dual-decision architecture with segregated experience pools mitigating nonstationarity through structured experience replay; 2) a supervised learning mechanism guiding the diffusion model's reverse denoising process to generate high-fidelity training samples that accelerate convergence; and 3) disturbance-robust policy learning incorporating behavioral cloning loss to guide the Deep Deterministic Policy Gradient network update using high-quality replay actions, eliminating handcrafted reward dependency. The tracking algorithm based on SDA-MARL proposed in this paper achieves superior precision compared to state-of-the-art methods in comprehensive underwater simulations.
- Abstract(参考訳): 近年、水中ネットワークとマルチエージェント強化学習(MARL)の進歩は、海洋探査および目標追跡におけるマルチオートノマス水中車両(AUV)の適用を著しく拡大している。
しかし、現在のMARL駆動協調追跡は3つの重要な課題に直面している。
1) 地域政策の更新によりチームメイトの観察空間が不安定になり、収束が防止される分散調整における非定常性
2)水中の視認性や制限されたセンサー範囲からのスパース・リワード探索の非効率性により、高い分散学習がもたらされる。
3)非モデル化された流体力学条件下での実世界のロバスト性を低下させる手工芸品の報酬依存性と相まって水の乱れの脆弱さについて検討した。
これらの課題に対処するために,グローバルトレーニングスケジューリング,マルチエージェント調整,ローカル意思決定,リアルタイム実行の4層からなる階層型MARLアーキテクチャを提案する。
このアーキテクチャは階層的な分解によってタスク割り当てとAUV間の協調を最適化する。
この基盤を基盤として,3つのイノベーションを特徴とするSupervised Diffusion-Aided MARL (SDA-MARL) アルゴリズムを提案する。
1 分離経験プールを有する二重決定アーキテクチャは、構造化経験再生により非定常性を緩和する。
2 拡散モデルの逆復調過程を指導し、収束を加速する高忠実度トレーニングサンプルを作成するための教師付き学習機構
3) 行動的クローン化損失を取り入れた乱暴な政策学習は, 高品質なリプレイ行動を用いた決定論的政策グラディエントネットワーク更新を誘導し, 手作りの報酬依存を排除した。
本稿では,SDA-MARLに基づく追跡アルゴリズムを用いて,総合的な水中シミュレーションにおける最先端手法と比較して精度が高いことを示す。
関連論文リスト
- Multi-AUV Ad-hoc Networks-Based Multi-Target Tracking Based on Scene-Adaptive Embodied Intelligence [17.13365683218245]
本稿では,マルチAUVアドホックネットワークのためのシーン適応型エンボディインテリジェンス(EI)アーキテクチャを提案する。
EIは、知覚、意思決定、身体的実行を統一された認知ループに統合することで、AUVを具現化された実体として再考する。
論文 参考訳(メタデータ) (2026-03-28T08:48:22Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions [51.22818149833102]
マルチエージェント強化学習(MARL)は、車間通信(C-V2X)ネットワークにおける無線リソース割り当ての有望なアプローチとして登場した。
しかし、MARLに固有の多面的課題はしばしば絡み合っており、車載環境における個々の影響を理解することは困難である。
我々は, C-V2X RRA を, 複雑さが徐々に増大する多エージェント干渉ゲーム列として定式化し, このギャップを埋める。
論文 参考訳(メタデータ) (2026-02-18T14:46:56Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Enhanced LULC Segmentation via Lightweight Model Refinements on ALOS-2 SAR Data [1.4401311275746886]
本研究は,ALOS-2単一分極SARデータを用いた全国規模の土地利用/土地被覆(LULC)セマンティックセマンティックセマンティックセグメンテーションに焦点を当てた。
我々は,SAR高密度予測故障モード,境界過度平滑化,薄/細い構造の欠如,そして長い尾を持つラベルの下での希少な劣化に対処する。
結果として得られたモデルは、日本全体のALOS-2 LULCベンチマーク、特に表現不足クラスに対して一貫した改善をもたらす。
論文 参考訳(メタデータ) (2026-01-22T07:18:06Z) - PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution [64.15555230987222]
PACEvolveはエージェントのコンテキストと検索ダイナミクスを堅牢に管理するように設計されたフレームワークである。
PACEvolveは、一貫性のある長期自己改善のための体系的なパスを提供する。
論文 参考訳(メタデータ) (2026-01-15T18:25:23Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - SWAGSplatting: Semantic-guided Water-scene Augmented Gaussian Splatting [9.070464075411472]
本研究では,マルチモーダルなクロス知識を活用してセマンティック誘導型3次元ガウス平滑化手法を提案する。
われわれの手法はSeaThru-NeRFとSubmerged3Dデータセットの最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-31T11:20:02Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Guided Cooperation in Hierarchical Reinforcement Learning via Model-based Rollout [16.454305212398328]
モデルベースロールアウト(GCMR)を用いたガイド協調という,目標条件付き階層型強化学習(HRL)フレームワークを提案する。
GCMRは、フォワードダイナミクスを利用して層間情報同期と協調をブリッジすることを目的としている。
実験により,提案したGCMRフレームワークをHIGLのアンタングル変種(ACLG)に組み込むことにより,より安定かつ堅牢な政策改善が得られた。
論文 参考訳(メタデータ) (2023-09-24T00:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。