論文の概要: Adversary agent reinforcement learning for pursuit-evasion
- arxiv url: http://arxiv.org/abs/2108.11010v1
- Date: Wed, 25 Aug 2021 01:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 13:09:59.475976
- Title: Adversary agent reinforcement learning for pursuit-evasion
- Title(参考訳): 追撃回避のための敵エージェント強化学習
- Authors: X. Huang
- Abstract要約: 本研究は,戦争の霧の中での追撃ゲームにおいて,敵エージェントによる強化学習環境を提案する。
最も人気のある学習環境の一つであるStarCraftがここで採用され、関連するミニゲームを分析して、敵エージェントのトレーニングの現在の制限を特定する。
提案したSAAC環境は、急速に発展する強化学習技術による追従回避研究の恩恵を受ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A reinforcement learning environment with adversary agents is proposed in
this work for pursuit-evasion game in the presence of fog of war, which is of
both scientific significance and practical importance in aerospace
applications. One of the most popular learning environments, StarCraft, is
adopted here and the associated mini-games are analyzed to identify the current
limitation for training adversary agents. The key contribution includes the
analysis of the potential performance of an agent by incorporating control and
differential game theory into the specific reinforcement learning environment,
and the development of an adversary agents challenge (SAAC) environment by
extending the current StarCraft mini-games. The subsequent study showcases the
use of this learning environment and the effectiveness of an adversary agent
for evasion units. Overall, the proposed SAAC environment should benefit
pursuit-evasion studies with rapidly-emerging reinforcement learning
technologies. Last but not least, the corresponding tutorial code can be found
at GitHub.
- Abstract(参考訳): 敵エージェントを用いた強化学習環境を,宇宙空間における科学的意義と実践的重要性の両面から,戦争の霧の存在下での追従回避ゲームとして提案する。
最も人気のある学習環境の一つであるStarCraftがここで採用され、関連するミニゲームを分析して、敵エージェントのトレーニングの現在の制限を特定する。
この鍵となる貢献は、制御と微分ゲーム理論を特定の強化学習環境に組み込むことによるエージェントの潜在的なパフォーマンスの分析と、現在のstarcraftミニゲームを拡張して敵エージェントチャレンジ(saac)環境の開発を含む。
その後の研究は、この学習環境の利用と、回避ユニットに対する敵エージェントの有効性を示す。
全体として、SAAC環境は、急速に発展する強化学習技術による追従回避研究の恩恵を受けるべきである。
最後に重要なのは、対応するチュートリアルコードがGitHubにあることだ。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - HackAtari: Atari Learning Environments for Robust and Continual Reinforcement Learning [20.034972354302788]
強化学習(Reinforcement Learning, RL)は、新奇性を探索の手段として活用するが、エージェントはしばしば新しい状況を扱うのに苦労する。
我々は最も一般的なRLベンチマークであるAtari Learning Environmentに制御ノベルティを導入したフレームワークであるHackAtariを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:17:05Z) - Adversarial Attacks on Reinforcement Learning Agents for Command and Control [6.05332129899857]
近年の研究では、学習に基づくアプローチは敵の摂動に非常に敏感であることが示されている。
本稿では,敵が制御する環境において,指揮制御タスクのために訓練されたエージェントの堅牢性について検討する。
実験により,これらのアルゴリズムを用いて訓練したエージェントは,敵が注入したノイズに非常に敏感であることを示す。
論文 参考訳(メタデータ) (2024-05-02T19:28:55Z) - Goal-Conditioned Reinforcement Learning in the Presence of an Adversary [0.0]
強化学習は、ここ数年で現実世界の文脈で応用が増えている。
これを戦うための一般的なアプローチは、敵の存在下でエージェントを訓練することである。
敵はエージェントを不安定にするために行動し、より堅牢なポリシーを学び、現実的な条件をうまく扱える。
本稿では,対戦相手に対する行動を支援する2つの新しい目標条件環境であるDigitFlipとCLEVR-Playを紹介する。
論文 参考訳(メタデータ) (2022-11-13T15:40:01Z) - DIAMBRA Arena: a New Reinforcement Learning Platform for Research and
Experimentation [91.3755431537592]
本研究は、強化学習研究と実験のための新しいプラットフォームであるDIAMBRA Arenaを提示する。
高品質な環境のコレクションが,OpenAI Gym標準に完全に準拠したPython APIを公開している。
これらは、離散的なアクションと観測を生のピクセルと追加の数値で構成したエピソディックなタスクである。
論文 参考訳(メタデータ) (2022-10-19T14:39:10Z) - Strategically Efficient Exploration in Competitive Multi-agent
Reinforcement Learning [25.041622707261897]
本研究は,非協調的マルチエージェント環境における楽観的な探索の役割を理解することを目的とする。
ゼロサムゲームにおいて、楽観的な探索は、学習者が戦略的なプレーとは無関係な状態空間のサンプリング部分を無駄にしてしまうことを示します。
この問題に対処するため、マルコフゲームにおいて戦略的に効率的な探索という形式的概念を導入し、これを有限マルコフゲームのための戦略的に効率的な2つの学習アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2021-07-30T15:22:59Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。