論文の概要: Multi-source Plume Tracing via Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.08825v1
- Date: Mon, 12 May 2025 21:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.241988
- Title: Multi-source Plume Tracing via Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習による複数ソースプルームの追跡
- Authors: Pedro Antonio Alarcon Granadeno, Theodore Chambers, Jane Cleland-Huang,
- Abstract要約: ブホバル災害のような産業災害は、迅速で信頼性の高いプルームトレースアルゴリズムの必要性を示している。
勾配に基づく、あるいは生物学的にインスパイアされたアプローチのような伝統的な手法は、しばしば現実的で乱暴な状況で失敗する。
本稿では,複数の大気汚染源をローカライズするマルチエージェント強化学習(MARL)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 41.03292974500013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial catastrophes like the Bhopal disaster (1984) and the Aliso Canyon gas leak (2015) demonstrate the urgent need for rapid and reliable plume tracing algorithms to protect public health and the environment. Traditional methods, such as gradient-based or biologically inspired approaches, often fail in realistic, turbulent conditions. To address these challenges, we present a Multi-Agent Reinforcement Learning (MARL) algorithm designed for localizing multiple airborne pollution sources using a swarm of small uncrewed aerial systems (sUAS). Our method models the problem as a Partially Observable Markov Game (POMG), employing a Long Short-Term Memory (LSTM)-based Action-specific Double Deep Recurrent Q-Network (ADDRQN) that uses full sequences of historical action-observation pairs, effectively approximating latent states. Unlike prior work, we use a general-purpose simulation environment based on the Gaussian Plume Model (GPM), incorporating realistic elements such as a three-dimensional environment, sensor noise, multiple interacting agents, and multiple plume sources. The incorporation of action histories as part of the inputs further enhances the adaptability of our model in complex, partially observable environments. Extensive simulations show that our algorithm significantly outperforms conventional approaches. Specifically, our model allows agents to explore only 1.29\% of the environment to successfully locate pollution sources.
- Abstract(参考訳): ブホバル災害(1984年)やアルソ・キャニオンガス漏れ(2015年)のような産業災害は、公衆衛生と環境を保護するために、迅速かつ信頼性の高い配管追跡アルゴリズムが緊急に必要であることを示している。
勾配に基づく、あるいは生物学的にインスパイアされたアプローチのような伝統的な手法は、しばしば現実的で乱暴な状況で失敗する。
これらの課題に対処するために,小型無人航空システム(sUAS)を用いたマルチエージェント強化学習(MARL)アルゴリズムを提案する。
提案手法は, 長期記憶(LSTM)をベースとした, 実測可能なマルコフゲーム(POMG)として, 歴史的動作-観測ペアの完全なシーケンスを用いて, 潜在状態を効果的に近似する, 行動固有Double Deep Recurrent Q-Network(ADDRQN)を用いて, 問題をモデル化する。
従来の作業とは違って,ガウスプラムモデル(GPM)に基づく汎用シミュレーション環境を用い,三次元環境,センサノイズ,マルチインタラクションエージェント,マルチプルームソースなどの現実的な要素を取り入れた。
入力の一部としてのアクションヒストリーの導入は、複雑で部分的に観測可能な環境における我々のモデルの適応性をさらに向上させる。
大規模なシミュレーションにより,本アルゴリズムは従来の手法よりも大幅に優れていることが示された。
具体的には, 環境の1.29 %しか探索できず, 汚染源の発見に成功している。
関連論文リスト
- Open-set Anomaly Segmentation in Complex Scenarios [88.11076112792992]
本稿では,複雑なシナリオにおけるオープンセット異常セグメンテーションのベンチマークであるComsAmyを紹介する。
ComsAmyは、幅広い悪天候、動的な運転環境、様々な異常タイプを含む。
本稿では,エネルギーとエントロピーの相補的情報を統合する新しいエネルギ-エントロピー学習(EEL)戦略を提案する。
論文 参考訳(メタデータ) (2025-04-28T12:00:10Z) - Learning Phase Distortion with Selective State Space Models for Video Turbulence Mitigation [13.073844945948132]
大気の乱流は、長距離イメージングシステムにおける画像劣化の主な原因である。
多くの深層学習に基づく乱流緩和法 (TM) が提案されているが, それらは遅い, メモリ不足であり, 一般化が不十分である。
本稿では,(1)選択状態空間モデル(MambaTM)に基づく乱流緩和ネットワークと(2)学習遅延位相歪み(LPD)の2つの概念に基づく新しいTM法を提案する。
提案手法は,様々な合成および実世界のTMベンチマークにおいて,推定速度が大幅に向上した現状のネットワークを超越した手法である。
論文 参考訳(メタデータ) (2025-04-03T15:33:18Z) - Whenever, Wherever: Towards Orchestrating Crowd Simulations with Spatio-Temporal Spawn Dynamics [65.72663487116439]
ニューラル・テンポラル・ポイント・プロセスを用いて生成時間生成ダイナミクスをモデル化するnTPP-GMMを提案する。
我々は,nTPP-GMMを用いた3つの実世界のデータセットのシミュレーションによるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-03-20T18:46:41Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - A SAM-guided Two-stream Lightweight Model for Anomaly Detection [44.73985145110819]
我々は、教師なし異常検出(STLM)のためのSAM誘導2ストリーム軽量モデルを提案する。
MVTec ADベンチマークを用いて行った実験により,約16Mのパラメータを持ち,20msの推論時間を実現したSTLMは,最先端の手法と効果的に競合することが示された。
論文 参考訳(メタデータ) (2024-02-29T13:29:10Z) - Surrogate Model for Geological CO2 Storage and Its Use in Hierarchical
MCMC History Matching [0.0]
我々は、最近導入されたR-U-Netサロゲートモデルを拡張し、幅広い地質シナリオから引き出されたジオモデルの実現を取り扱う。
本研究では, 人工真理モデルにおける観測井の観測データを用いて, 地質的不確実性を大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-08-11T18:29:28Z) - Multi-Agent Reinforcement Learning for Adaptive Mesh Refinement [17.72127385405445]
完全協調型マルコフゲームとしてアダプティブメッシュリファインメント(AMR)の新たな定式化を提案する。
VDGN(Value Decomposition Graph Network)と呼ばれる新しい深層マルチエージェント強化学習アルゴリズムを設計する。
VDGNポリシは,グローバルエラーおよびコスト指標において,エラーしきい値に基づくポリシよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T00:41:32Z) - Reduced-order modeling for parameterized large-eddy simulations of
atmospheric pollutant dispersion [0.0]
大渦シミュレーション(LES)は、汚染物質濃度の空間的変動を正確に表現する可能性がある。
LESは、様々な大気および源のパラメータで気流とトレーサの分散がどのように変化するかを理解するために、展開するのに不当にコストがかかる。
本稿では, 適切な分解(POD)とガウス過程回帰(GPR)を組み合わせた非侵入的還元次数モデルを提案し, トレーサー濃度に関連する利害関係のLES場統計を予測した。
論文 参考訳(メタデータ) (2022-08-02T15:06:22Z) - TurbuGAN: An Adversarial Learning Approach to Spatially-Varying
Multiframe Blind Deconvolution with Applications to Imaging Through
Turbulence [9.156939957189504]
本稿では,TurbuGANと呼ばれる大気乱流の画像化のための,自己監督型,自己校正型マルチショットアプローチを提案する。
我々のアプローチでは、ペア化されたトレーニングデータを必要としず、乱流の分布に適応し、ドメイン固有の事前データを活用し、既存のアプローチより優れ、数万から数万の計測値から一般化することができる。
論文 参考訳(メタデータ) (2022-03-13T21:32:34Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。