Fugu-MT 論文翻訳(概要): Adversarial Search and Tracking with Multiagent Reinforcement Learning in Sparsely Observable Environment

論文の概要: Adversarial Search and Tracking with Multiagent Reinforcement Learning in Sparsely Observable Environment

arxiv url: http://arxiv.org/abs/2306.11301v2
Date: Sat, 21 Oct 2023 01:40:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 08:43:12.015049
Title: Adversarial Search and Tracking with Multiagent Reinforcement Learning in Sparsely Observable Environment
Title（参考訳）: 疎観測環境におけるマルチエージェント強化学習による逆探索と追跡
Authors: Zixuan Wu, Sean Ye, Manisha Natarajan, Letian Chen, Rohan Paleja, Matthew C. Gombolay
Abstract要約: 本研究では,探索・追跡(S&T)問題として,動的探索エージェントのチームが協調して,敵対的,回避的エージェントを追跡することを提案する。この問題は, モデルベース探索・強化学習(RL)手法の両手法において, 探索エージェントのスパース検出に繋がる大規模な空間において, 反抗的かつ詐欺的回避行動を示すため, 課題となる。本稿では,学習可能なフィルタリングモデルから推定逆位置を利用する新しいMulti-Agent RL(MARL)フレームワークを提案する。
参考スコア（独自算出の注目度）: 7.195547595036644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study a search and tracking (S&T) problem where a team of dynamic search agents must collaborate to track an adversarial, evasive agent. The heterogeneous search team may only have access to a limited number of past adversary trajectories within a large search space. This problem is challenging for both model-based searching and reinforcement learning (RL) methods since the adversary exhibits reactionary and deceptive evasive behaviors in a large space leading to sparse detections for the search agents. To address this challenge, we propose a novel Multi-Agent RL (MARL) framework that leverages the estimated adversary location from our learnable filtering model. We show that our MARL architecture can outperform all baselines and achieves a 46% increase in detection rate.
Abstract（参考訳）: 本研究では,動的検索エージェントのチームが協調して,敵対的かつ回避的なエージェントを追跡しなければならないs&t問題について検討する。不均質な検索チームは、大きな検索空間内で、限られた数の過去の敵のトラジェクタにのみアクセスすることができる。この問題は, モデルベース探索・強化学習(RL)手法の両手法において, 探索エージェントのスパース検出に繋がる大規模な空間において, 反抗的かつ詐欺的回避行動を示すため, 課題となる。この課題に対処するために,学習可能なフィルタリングモデルから推定逆位置を利用するMARL(Multi-Agent RL)フレームワークを提案する。 MARLアーキテクチャはすべてのベースラインを上回り,検出率を46%向上させることができることを示す。

関連論文リスト

MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning [0.8388591755871735]
R-SearchはReasoning-Search統合のための強化学習フレームワークである。ディープ・サーチ・インタラクションを伴う多段階推論を自律的に実行するために,大規模言語モデルを誘導する。 R-Searchは,マルチリワード信号による最適推論探索軌跡を学習する。
論文参考訳（メタデータ） (2025-06-04T17:29:22Z)
ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文参考訳（メタデータ） (2025-05-07T17:30:22Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文参考訳（メタデータ） (2024-10-02T21:42:35Z)
FoX: Formation-aware exploration in multi-agent reinforcement learning [10.554220876480297]
本研究では, 探索空間における構成に基づく等価性関係を提案し, 異なる構成の有意義な状態のみを探索することによって探索空間を削減することを目的とする。数値計算の結果,提案するFoXフレームワークは,Google Research Football(GRF)における最先端のMARLアルゴリズムと,Starcraft IIマルチエージェントチャレンジ(SMAC)タスクを著しく上回ることがわかった。
論文参考訳（メタデータ） (2023-08-22T08:39:44Z)
GUTS: Generalized Uncertainty-Aware Thompson Sampling for Multi-Agent Active Search [5.861092453610268]
一般化された不確実性認識型トンプソンサンプリング (GUTS) アルゴリズムは, 大規模非構造環境における能動探索のための異種マルチロボットシステムへの展開に適したアルゴリズムである。探索面積が75,000 sq.mの非構造環境におけるマルチロボットシステムを用いたフィールドテストを行った。
論文参考訳（メタデータ） (2023-04-04T18:58:16Z)
PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-10-07T10:04:12Z)
The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks and Environmental Factors without Precise Reward Functions [14.399479538886064]
本稿では,StarCraft Multi-Agent Challenges+という新しいベンチマークを提案する。この課題は、マイクロコントロールだけでなく、暗黙のマルチステージタスクや環境要因を効率的に学習するMARLアルゴリズムの探索能力に関心がある。 SMAC+ の MARL アルゴリズムについて検討し,近年の手法は従来の課題とよく似ているが,攻撃的シナリオでは誤動作する。
論文参考訳（メタデータ） (2022-07-05T12:43:54Z)
Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2021-07-23T20:06:32Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
Reannealing of Decaying Exploration Based On Heuristic Measure in Deep Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文参考訳（メタデータ） (2020-09-29T20:40:00Z)
AutoOD: Automated Outlier Detection via Curiosity-guided Search and Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2020-06-19T18:57:51Z)
Conflict-Based Search for Connected Multi-Agent Path Finding [6.18778092044887]
エージェントが互いに接続し、指定されたベースに留まることを必要とするマルチエージェントパス探索問題(MAPF)の変種について検討する。この問題は、人間のオペレーターが実行全体を監視しなければならない探索と救助のミッションに応用できる。我々はMAPFとして知られるコンフリクトベースの探索アルゴリズムを再検討し、コンフリクトが衝突ではなく切断から生じる変種を定義する。
論文参考訳（メタデータ） (2020-06-05T08:02:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。