論文の概要: Adversarial Attacks on Reinforcement Learning Agents for Command and Control
- arxiv url: http://arxiv.org/abs/2405.01693v1
- Date: Thu, 2 May 2024 19:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 14:44:38.538771
- Title: Adversarial Attacks on Reinforcement Learning Agents for Command and Control
- Title(参考訳): 指揮統制のための強化学習エージェントの敵攻撃
- Authors: Ahaan Dabholkar, James Z. Hare, Mark Mittrick, John Richardson, Nicholas Waytowich, Priya Narayanan, Saurabh Bagchi,
- Abstract要約: 近年の研究では、学習に基づくアプローチは敵の摂動に非常に敏感であることが示されている。
本稿では,敵が制御する環境において,指揮制御タスクのために訓練されたエージェントの堅牢性について検討する。
実験により,これらのアルゴリズムを用いて訓練したエージェントは,敵が注入したノイズに非常に敏感であることを示す。
- 参考スコア(独自算出の注目度): 6.05332129899857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the recent impact of Deep Reinforcement Learning in training agents to win complex games like StarCraft and DoTA(Defense Of The Ancients) - there has been a surge in research for exploiting learning based techniques for professional wargaming, battlefield simulation and modeling. Real time strategy games and simulators have become a valuable resource for operational planning and military research. However, recent work has shown that such learning based approaches are highly susceptible to adversarial perturbations. In this paper, we investigate the robustness of an agent trained for a Command and Control task in an environment that is controlled by an active adversary. The C2 agent is trained on custom StarCraft II maps using the state of the art RL algorithms - A3C and PPO. We empirically show that an agent trained using these algorithms is highly susceptible to noise injected by the adversary and investigate the effects these perturbations have on the performance of the trained agent. Our work highlights the urgent need to develop more robust training algorithms especially for critical arenas like the battlefield.
- Abstract(参考訳): StarCraftやDoTA(Defense of The Ancients)のような複雑なゲームに勝つためのトレーニングエージェントに対するDeep Reinforcement Learningの影響を考えると、プロのウォーゲーム、戦場シミュレーション、モデリングのための学習ベースのテクニックを活用する研究が急増している。
リアルタイム戦略ゲームやシミュレータは、作戦計画や軍事研究の貴重な資源となっている。
しかし、近年の研究では、このような学習に基づくアプローチは、敵の摂動に非常に敏感であることが示されている。
本稿では,能動敵に制御される環境において,指揮制御タスクのために訓練されたエージェントの堅牢性について検討する。
C2エージェントは、最先端のRLアルゴリズムであるA3CとPPOを使用して、カスタムのStarCraft IIマップでトレーニングされる。
実験により,これらのアルゴリズムを用いて訓練されたエージェントは,敵が注入したノイズに強い感受性を示し,これらの摂動が訓練されたエージェントの性能に与える影響を検証した。
私たちの研究は、特に戦場のような重要な分野において、より堅牢なトレーニングアルゴリズムを開発する緊急の必要性を強調しています。
関連論文リスト
- Reinforcement Learning Based Self-play and State Stacking Techniques for
Noisy Air Combat Environment [1.7403133838762446]
空気戦闘の複雑さは、攻撃的な近距離演習とアジャイルな敵の行動から生じる。
本研究では,エージェントに騒音を観測する空気戦闘シミュレーションを開発した。
ノイズ低減手法として,雑音の多いRL環境に対する状態積み重ね手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T12:23:23Z) - Reinforcement Learning for UAV control with Policy and Reward Shaping [0.7127008801193563]
本研究では,RLエージェントが報酬形成と政策形成を同時に行うことで,ドローンを制御できるように指導する。
その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。
論文 参考訳(メタデータ) (2022-12-06T14:46:13Z) - A Deep Reinforcement Learning Strategy for UAV Autonomous Landing on a
Platform [0.0]
物理シミュレーションプラットフォーム(ROS-RL)の一種であるGazeboに基づく強化学習フレームワークを提案する。
我々は,自律着陸問題に対処するために,3つの連続行動空間強化学習アルゴリズムをフレームワークに使用した。
論文 参考訳(メタデータ) (2022-09-07T06:33:57Z) - Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II [0.5911087507716211]
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-11T21:53:11Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Adversary agent reinforcement learning for pursuit-evasion [0.0]
本研究は,戦争の霧の中での追撃ゲームにおいて,敵エージェントによる強化学習環境を提案する。
最も人気のある学習環境の一つであるStarCraftがここで採用され、関連するミニゲームを分析して、敵エージェントのトレーニングの現在の制限を特定する。
提案したSAAC環境は、急速に発展する強化学習技術による追従回避研究の恩恵を受ける。
論文 参考訳(メタデータ) (2021-08-25T01:44:06Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。