論文の概要: Adversarial Search and Track with Multiagent Reinforcement Learning in
Sparsely Observable Environment
- arxiv url: http://arxiv.org/abs/2306.11301v1
- Date: Tue, 20 Jun 2023 05:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:30:48.736372
- Title: Adversarial Search and Track with Multiagent Reinforcement Learning in
Sparsely Observable Environment
- Title(参考訳): 疎観測環境におけるマルチエージェント強化学習による逆探索と追跡
- Authors: Zixuan Wu, Sean Ye, Manisha Natarajan, Letian Chen, Rohan Paleja,
Matthew C. Gombolay
- Abstract要約: 本研究では,動的探索エージェントのチームに対して,敵対的回避エージェントを捕捉する探索・追跡(S&T)問題について検討する。
我々のアルゴリズムは、事前知識と動きモデルから情報をバランスさせて、データ分散シフトに対して回復力を維持する方法を学ぶ。
- 参考スコア(独自算出の注目度): 7.160595129387177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a search and tracking (S&T) problem for a team of dynamic search
agents to capture an adversarial evasive agent with only sparse temporal and
spatial knowledge of its location in this paper. The domain is challenging for
traditional Reinforcement Learning (RL) approaches as the large space leads to
sparse observations of the adversary and in turn sparse rewards for the search
agents. Additionally, the opponent's behavior is reactionary to the search
agents, which causes a data distribution shift for RL during training as search
agents improve their policies. We propose a differentiable Multi-Agent RL
(MARL) architecture that utilizes a novel filtering module to supplement
estimated adversary location information and enables the effective learning of
a team policy. Our algorithm learns how to balance information from prior
knowledge and a motion model to remain resilient to the data distribution shift
and outperforms all baseline methods with a 46% increase of detection rate.
- Abstract(参考訳): 本稿では,動的探索エージェントの探索・追跡(S&T)問題について検討し,その位置に関する時間的・空間的知識の少ない敵対的回避エージェントを捕捉する。
この領域は、大きな空間が敵の視線を緩やかに観察し、探索エージェントに対する報酬を軽視するため、伝統的な強化学習(RL)アプローチに挑戦する。
さらに、相手の行動は、検索エージェントに対して反抗的であり、検索エージェントがポリシーを改善するにつれて、トレーニング中のRLのデータ分散シフトを引き起こす。
本稿では,新たなフィルタリングモジュールを用いて,推定対向位置情報を補足し,チームの方針を効果的に学習できる,識別可能なマルチエージェントRL(MARL)アーキテクチャを提案する。
本アルゴリズムは,従来の知識と動きモデルから得られる情報のバランスを学習し,データ分散シフトに対して回復力を保つとともに,検出率を46%増加させ,すべてのベースライン法より優れる。
関連論文リスト
- ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - FoX: Formation-aware exploration in multi-agent reinforcement learning [10.554220876480297]
本研究では, 探索空間における構成に基づく等価性関係を提案し, 異なる構成の有意義な状態のみを探索することによって探索空間を削減することを目的とする。
数値計算の結果,提案するFoXフレームワークは,Google Research Football(GRF)における最先端のMARLアルゴリズムと,Starcraft IIマルチエージェントチャレンジ(SMAC)タスクを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-08-22T08:39:44Z) - GUTS: Generalized Uncertainty-Aware Thompson Sampling for Multi-Agent
Active Search [5.861092453610268]
一般化された不確実性認識型トンプソンサンプリング (GUTS) アルゴリズムは, 大規模非構造環境における能動探索のための異種マルチロボットシステムへの展開に適したアルゴリズムである。
探索面積が75,000 sq.mの非構造環境におけるマルチロボットシステムを用いたフィールドテストを行った。
論文 参考訳(メタデータ) (2023-04-04T18:58:16Z) - PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person
Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。
私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。
我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-07T10:04:12Z) - The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks
and Environmental Factors without Precise Reward Functions [14.399479538886064]
本稿では,StarCraft Multi-Agent Challenges+という新しいベンチマークを提案する。
この課題は、マイクロコントロールだけでなく、暗黙のマルチステージタスクや環境要因を効率的に学習するMARLアルゴリズムの探索能力に関心がある。
SMAC+ の MARL アルゴリズムについて検討し,近年の手法は従来の課題とよく似ているが,攻撃的シナリオでは誤動作する。
論文 参考訳(メタデータ) (2022-07-05T12:43:54Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z) - Conflict-Based Search for Connected Multi-Agent Path Finding [6.18778092044887]
エージェントが互いに接続し、指定されたベースに留まることを必要とするマルチエージェントパス探索問題(MAPF)の変種について検討する。
この問題は、人間のオペレーターが実行全体を監視しなければならない探索と救助のミッションに応用できる。
我々はMAPFとして知られるコンフリクトベースの探索アルゴリズムを再検討し、コンフリクトが衝突ではなく切断から生じる変種を定義する。
論文 参考訳(メタデータ) (2020-06-05T08:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。