論文の概要: Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2505.08222v1
- Date: Tue, 13 May 2025 04:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.42309
- Title: Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles
- Title(参考訳): 自動車による水中音響追跡のためのマルチエージェント強化学習のスケーリング
- Authors: Matteo Gallici, Ivan Masmitja, Mario Martín,
- Abstract要約: マルチエージェント強化学習は、サンプル非効率で悪名高い。
GazeboのLRAUVのような高忠実度シミュレータは、リアルタイムのシングルロボットシミュレーションを100倍高速にする。
本稿では,高忠実度シミュレーションをGPU加速環境へ伝達する反復蒸留法を提案する。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous vehicles (AV) offer a cost-effective solution for scientific missions such as underwater tracking. Recently, reinforcement learning (RL) has emerged as a powerful method for controlling AVs in complex marine environments. However, scaling these techniques to a fleet--essential for multi-target tracking or targets with rapid, unpredictable motion--presents significant computational challenges. Multi-Agent Reinforcement Learning (MARL) is notoriously sample-inefficient, and while high-fidelity simulators like Gazebo's LRAUV provide 100x faster-than-real-time single-robot simulations, they offer no significant speedup for multi-vehicle scenarios, making MARL training impractical. To address these limitations, we propose an iterative distillation method that transfers high-fidelity simulations into a simplified, GPU-accelerated environment while preserving high-level dynamics. This approach achieves up to a 30,000x speedup over Gazebo through parallelization, enabling efficient training via end-to-end GPU acceleration. Additionally, we introduce a novel Transformer-based architecture (TransfMAPPO) that learns multi-agent policies invariant to the number of agents and targets, significantly improving sample efficiency. Following large-scale curriculum learning conducted entirely on GPU, we perform extensive evaluations in Gazebo, demonstrating that our method maintains tracking errors below 5 meters over extended durations, even in the presence of multiple fast-moving targets. This work bridges the gap between large-scale MARL training and high-fidelity deployment, providing a scalable framework for autonomous fleet control in real-world sea missions.
- Abstract(参考訳): 自律走行車(AV)は、水中追跡のような科学的ミッションに対して費用対効果の高いソリューションを提供する。
近年,複雑な海洋環境下でのAV制御の強力な手法として強化学習(RL)が出現している。
しかし、これらのテクニックを、マルチターゲットトラッキングや、高速で予測不可能な動きを持つターゲットにとって不可欠なフリートにスケールすることは、重大な計算上の課題を浮き彫りにしている。
MARL(Multi-Agent Reinforcement Learning)はサンプル非効率で知られており、GazeboのLRAUVのような高忠実度シミュレータは100倍高速でリアルタイムのシングルロボットシミュレーションを提供するが、マルチ車両シナリオの大幅なスピードアップは提供せず、MARLのトレーニングを非現実的なものにしている。
これらの制約に対処するため,高次力学を保ちながら,高忠実度シミュレーションを単純化したGPU加速環境に伝達する反復蒸留法を提案する。
このアプローチは並列化によってGazebo上で最大3万倍のスピードアップを実現し、エンドツーエンドのGPUアクセラレーションによる効率的なトレーニングを可能にする。
さらに,エージェント数やターゲット数に不変なマルチエージェントポリシーを学習し,サンプル効率を大幅に向上するトランスフォーマーベースアーキテクチャ(TransfMAPPO)を導入する。
大規模なカリキュラム学習をGPUで完全に実施した後、ガゼボで広範囲な評価を行い、複数の高速移動目標が存在する場合でも、我々の手法が5m以下の誤差を長期にわたって追跡することを示した。
この作業は、大規模なMARLトレーニングと高忠実度デプロイメントのギャップを埋め、現実世界の海上ミッションにおいて自律的な艦隊制御のためのスケーラブルなフレームワークを提供する。
関連論文リスト
- A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。
本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文 参考訳(メタデータ) (2025-04-21T14:25:23Z) - RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation [9.25068777307471]
本稿では,乱雑な環境下でのアジャイルドローン飛行のための学習型ビジュアルプランナを紹介する。
提案したプランナーは、ミリ秒で衝突のないウェイポイントを生成し、ドローンは、異なる知覚、マッピング、計画モジュールを構築することなく、複雑な環境でアジャイルな操作を実行できる。
論文 参考訳(メタデータ) (2025-02-04T06:42:08Z) - HEART: Achieving Timely Multi-Model Training for Vehicle-Edge-Cloud-Integrated Hierarchical Federated Learning [30.75025062952915]
AI対応のIoT of Vehicles(IoV)の急速な成長は、効率的な機械学習(ML)ソリューションを求めている。
車両はしばしば複数のMLタスクを同時に実行する必要がある。
本稿では,グローバルトレーニング遅延の最小化を目的とした動的VEC-HFLにおけるマルチモデルトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-17T03:15:03Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。