論文の概要: Long-Term Mapping of the Douro River Plume with Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.03534v1
- Date: Fri, 03 Oct 2025 22:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.095359
- Title: Long-Term Mapping of the Douro River Plume with Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習によるドゥーロ川プルームの長期マッピング
- Authors: Nicolò Dal Fabbro, Milad Mesbahi, Renato Mendes, João Borges de Sousa, George J. Pappas,
- Abstract要約: 本研究では,複数の自律型水中車両(AUV)を用いた河川プルームの長期(複数日)マッピングの問題に焦点をあてる。
本稿では,中央コーディネータが断続的にAUVと通信する,エネルギー・通信・効率的なマルチエージェント強化学習手法を提案する。
Delft3D モデルを用いたシミュレーションにより,本手法はシングルエージェントとマルチエージェントのベンチマークで一貫した性能を示した。
- 参考スコア(独自算出の注目度): 19.135755615726655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of long-term (multiple days) mapping of a river plume using multiple autonomous underwater vehicles (AUVs), focusing on the Douro river representative use-case. We propose an energy - and communication - efficient multi-agent reinforcement learning approach in which a central coordinator intermittently communicates with the AUVs, collecting measurements and issuing commands. Our approach integrates spatiotemporal Gaussian process regression (GPR) with a multi-head Q-network controller that regulates direction and speed for each AUV. Simulations using the Delft3D ocean model demonstrate that our method consistently outperforms both single- and multi-agent benchmarks, with scaling the number of agents both improving mean squared error (MSE) and operational endurance. In some instances, our algorithm demonstrates that doubling the number of AUVs can more than double endurance while maintaining or improving accuracy, underscoring the benefits of multi-agent coordination. Our learned policies generalize across unseen seasonal regimes over different months and years, demonstrating promise for future developments of data-driven long-term monitoring of dynamic plume environments.
- Abstract(参考訳): 複数の自律型水中車両 (AUVs) を用いた河川プルームの長期(複数日)マッピングの問題点について, 土浦川代表型利用事例に着目して検討した。
本稿では、中央コーディネータが断続的にAUVと通信し、測定値を収集し、指令を発する、エネルギー・通信・効率的なマルチエージェント強化学習手法を提案する。
提案手法は時空間ガウス過程回帰(GPR)とマルチヘッドQ-ネットワークコントローラを統合し,各AUVの方向と速度を制御している。
Delft3D海洋モデルを用いたシミュレーションにより,本手法は平均二乗誤差(MSE)と操作持続性の両方を改善しながら,単エージェントと多エージェントのベンチマークを一貫して上回ることを示した。
いくつかの例では、AUVの数を2倍にすることで、精度を維持したり改善したりしながら、マルチエージェント調整の利点を実証する。
学習方針は,何ヶ月,何年にもわたって,目に見えない季節体制をまたがって一般化し,ダイナミックプラム環境におけるデータ駆動型長期監視の今後の展開を実証する。
関連論文リスト
- Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Age of Information Minimization in UAV-Enabled Integrated Sensing and Communication Systems [34.92822911897626]
統合センシング通信(ISAC)機能を備えた無人航空機(UAV)は、将来の無線ネットワークにおいて重要な役割を果たすと想定されている。
ターゲットセンシングとマルチユーザ通信を同時に行う老化情報(AoI)システムを提案する。
論文 参考訳(メタデータ) (2025-07-18T18:17:09Z) - Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles [0.9217021281095907]
マルチエージェント強化学習は、サンプル非効率で悪名高い。
GazeboのLRAUVのような高忠実度シミュレータは、リアルタイムのシングルロボットシミュレーションを100倍高速にする。
本稿では,高忠実度シミュレーションをGPU加速環境へ伝達する反復蒸留法を提案する。
論文 参考訳(メタデータ) (2025-05-13T04:42:30Z) - Learning from Polar Representation: An Extreme-Adaptive Model for
Long-Term Time Series Forecasting [10.892801642895904]
本稿では,距離重み付き自己正規化ニューラルネットワーク(DAN)を提案する。これは極性表現学習によって強化されたストラムフローの長距離予測のための新しい極性適応モデルである。
実生活における4つの水文流れデータセットにおいて、DANは、最先端の水文時系列予測法と長期時系列予測のための一般的な方法の両方を著しく上回っていることを実証した。
論文 参考訳(メタデータ) (2023-12-14T09:16:01Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO
systems [0.3883460584034765]
そこで本稿では,MADRLをベースとした手法により,達成可能なレート領域の外部境界(パリトバウンダリ)を達成するためのプリコーダを共同で最適化する。
また、無線通信で広く使われている信号の、従来の複雑なベースバンド表現による位相曖昧性の問題にも対処する。
我々の知る限りでは、MA-DDPGフレームワークがプリコーダを協調的に最適化し、達成可能なレート領域のパリトバウンダリを達成できることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2021-09-10T16:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。