論文の概要: Latent Variable Modeling in Multi-Agent Reinforcement Learning via Expectation-Maximization for UAV-Based Wildlife Protection
- arxiv url: http://arxiv.org/abs/2509.02579v1
- Date: Tue, 26 Aug 2025 06:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.22283
- Title: Latent Variable Modeling in Multi-Agent Reinforcement Learning via Expectation-Maximization for UAV-Based Wildlife Protection
- Title(参考訳): UAVによる野生生物保護の期待最大化による多エージェント強化学習における潜時変動モデリング
- Authors: Mazyar Taghavi, Rahman Farnoosh,
- Abstract要約: 本稿では,野生生物保護の文脈における予測最大化に基づく潜在変数モデリング手法を提案する。
隠れた環境因子と潜伏変数によるエージェント間ダイナミクスをモデル化することにより,不確実性の下での探索と調整が促進される。
絶滅危惧種のイランヒョウの保護生息地をパトロールする10機のUAVを含むカスタムシミュレーションを用いてEM-MARLフレームワークの実装と評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protecting endangered wildlife from illegal poaching presents a critical challenge, particularly in vast and partially observable environments where real-time response is essential. This paper introduces a novel Expectation-Maximization (EM) based latent variable modeling approach in the context of Multi-Agent Reinforcement Learning (MARL) for Unmanned Aerial Vehicle (UAV) coordination in wildlife protection. By modeling hidden environmental factors and inter-agent dynamics through latent variables, our method enhances exploration and coordination under uncertainty.We implement and evaluate our EM-MARL framework using a custom simulation involving 10 UAVs tasked with patrolling protected habitats of the endangered Iranian leopard. Extensive experimental results demonstrate superior performance in detection accuracy, adaptability, and policy convergence when compared to standard algorithms such as Proximal Policy Optimization (PPO) and Deep Deterministic Policy Gradient (DDPG). Our findings underscore the potential of combining EM inference with MARL to improve decentralized decisionmaking in complex, high-stakes conservation scenarios. The full implementation, simulation environment, and training scripts are publicly available on GitHub.
- Abstract(参考訳): 絶滅危惧種の野生生物を違法な密猟から守ることは、特にリアルタイムの対応が不可欠である広範囲で部分的に観察可能な環境において、重要な課題となる。
本稿では,無人航空機(UAV)による野生生物保護のためのマルチエージェント強化学習(MARL)の文脈において,EMに基づく潜在変数モデリング手法を提案する。
隠れた環境因子と潜伏変数によるエージェント間ダイナミクスをモデル化することにより,不確実性の下での探索と調整を促進させるとともに,絶滅危惧種のイランヒョウの保護生息地をパトロールする10UAVのカスタムシミュレーションを用いて,EM-MARLフレームワークの実装と評価を行った。
PPO(Porximal Policy Optimization)やDDPG(Deep Deterministic Policy Gradient)といった標準アルゴリズムと比較して,検出精度,適応性,ポリシ収束性において優れた性能を示した。
本研究は,EM推論とMARLを併用して,複雑で高い保存シナリオにおける分散型意思決定を改善する可能性を明らかにするものである。
完全な実装、シミュレーション環境、トレーニングスクリプトはGitHubで公開されている。
関連論文リスト
- Vision-driven River Following of UAV via Safe Reinforcement Learning using Semantic Dynamics Model [11.29011178752037]
無人航空機による視覚駆動の自律川は、救助、監視、環境監視といった用途に欠かせない。
報奨関数がサブモジュラーであり、よりユニークな河川セグメントが訪れるとリターンが低下するカバレッジ制御問題として、河川追従を定式化する。
本稿では,モデルベースのSafeRLフレームワークを構築するために,アクタ,コスト推定器,SDMを統合するConstrained Actor Dynamics Estimatorアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-13T17:39:09Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - Online Planning for Multi-UAV Pursuit-Evasion in Unknown Environments Using Deep Reinforcement Learning [16.676389371667284]
マルチUAV追跡回避は、UAV群知能にとって重要な課題である。
本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。
我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
論文 参考訳(メタデータ) (2024-09-24T08:40:04Z) - Bayesian Risk-Averse Q-Learning with Streaming Observations [7.330349128557128]
我々は,学習エージェントが模擬学習環境から学習する,堅牢な強化学習問題を考える。
エージェントの制御外にある実環境からの観測が定期的に到着する。
実環境からのストリーミング観測でBRMDPを解くための多段階ベイズリスク逆Q-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-18T20:48:50Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。