論文の概要: Adversarial Search and Tracking with Multiagent Reinforcement Learning
in Sparsely Observable Environment
- arxiv url: http://arxiv.org/abs/2306.11301v2
- Date: Sat, 21 Oct 2023 01:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:43:12.015049
- Title: Adversarial Search and Tracking with Multiagent Reinforcement Learning
in Sparsely Observable Environment
- Title(参考訳): 疎観測環境におけるマルチエージェント強化学習による逆探索と追跡
- Authors: Zixuan Wu, Sean Ye, Manisha Natarajan, Letian Chen, Rohan Paleja,
Matthew C. Gombolay
- Abstract要約: 本研究では,探索・追跡(S&T)問題として,動的探索エージェントのチームが協調して,敵対的,回避的エージェントを追跡することを提案する。
この問題は, モデルベース探索・強化学習(RL)手法の両手法において, 探索エージェントのスパース検出に繋がる大規模な空間において, 反抗的かつ詐欺的回避行動を示すため, 課題となる。
本稿では,学習可能なフィルタリングモデルから推定逆位置を利用する新しいMulti-Agent RL(MARL)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.195547595036644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a search and tracking (S&T) problem where a team of dynamic search
agents must collaborate to track an adversarial, evasive agent. The
heterogeneous search team may only have access to a limited number of past
adversary trajectories within a large search space. This problem is challenging
for both model-based searching and reinforcement learning (RL) methods since
the adversary exhibits reactionary and deceptive evasive behaviors in a large
space leading to sparse detections for the search agents. To address this
challenge, we propose a novel Multi-Agent RL (MARL) framework that leverages
the estimated adversary location from our learnable filtering model. We show
that our MARL architecture can outperform all baselines and achieves a 46%
increase in detection rate.
- Abstract(参考訳): 本研究では,動的検索エージェントのチームが協調して,敵対的かつ回避的なエージェントを追跡しなければならないs&t問題について検討する。
不均質な検索チームは、大きな検索空間内で、限られた数の過去の敵のトラジェクタにのみアクセスすることができる。
この問題は, モデルベース探索・強化学習(RL)手法の両手法において, 探索エージェントのスパース検出に繋がる大規模な空間において, 反抗的かつ詐欺的回避行動を示すため, 課題となる。
この課題に対処するために,学習可能なフィルタリングモデルから推定逆位置を利用するMARL(Multi-Agent RL)フレームワークを提案する。
MARLアーキテクチャはすべてのベースラインを上回り,検出率を46%向上させることができることを示す。
関連論文リスト
- ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - FoX: Formation-aware exploration in multi-agent reinforcement learning [10.554220876480297]
本研究では, 探索空間における構成に基づく等価性関係を提案し, 異なる構成の有意義な状態のみを探索することによって探索空間を削減することを目的とする。
数値計算の結果,提案するFoXフレームワークは,Google Research Football(GRF)における最先端のMARLアルゴリズムと,Starcraft IIマルチエージェントチャレンジ(SMAC)タスクを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-08-22T08:39:44Z) - GUTS: Generalized Uncertainty-Aware Thompson Sampling for Multi-Agent Active Search [8.767487824003373]
一般化された不確実性認識型トンプソンサンプリング (GUTS) アルゴリズムは, 大規模非構造環境における能動探索のための異種マルチロボットシステムへの展開に適したアルゴリズムである。
探索面積が75,000 sq.mの非構造環境におけるマルチロボットシステムを用いたフィールドテストを行った。
論文 参考訳(メタデータ) (2023-04-04T18:58:16Z) - PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person
Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。
私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。
我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-07T10:04:12Z) - The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks
and Environmental Factors without Precise Reward Functions [14.399479538886064]
本稿では,StarCraft Multi-Agent Challenges+という新しいベンチマークを提案する。
この課題は、マイクロコントロールだけでなく、暗黙のマルチステージタスクや環境要因を効率的に学習するMARLアルゴリズムの探索能力に関心がある。
SMAC+ の MARL アルゴリズムについて検討し,近年の手法は従来の課題とよく似ているが,攻撃的シナリオでは誤動作する。
論文 参考訳(メタデータ) (2022-07-05T12:43:54Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z) - Conflict-Based Search for Connected Multi-Agent Path Finding [6.18778092044887]
エージェントが互いに接続し、指定されたベースに留まることを必要とするマルチエージェントパス探索問題(MAPF)の変種について検討する。
この問題は、人間のオペレーターが実行全体を監視しなければならない探索と救助のミッションに応用できる。
我々はMAPFとして知られるコンフリクトベースの探索アルゴリズムを再検討し、コンフリクトが衝突ではなく切断から生じる変種を定義する。
論文 参考訳(メタデータ) (2020-06-05T08:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。