論文の概要: Robust Reinforcement Learning Under Minimax Regret for Green Security
- arxiv url: http://arxiv.org/abs/2106.08413v1
- Date: Tue, 15 Jun 2021 20:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:35:06.926846
- Title: Robust Reinforcement Learning Under Minimax Regret for Green Security
- Title(参考訳): グリーンセキュリティのためのMinimaxレグレスト下でのロバスト強化学習
- Authors: Lily Xu, Andrew Perrault, Fei Fang, Haipeng Chen, Milind Tambe
- Abstract要約: グリーン・セキュリティ・ドメインは、密猟者、違法なロガー、違法な漁師の敵対行動の不確実さに直面してパトロールを計画する被告を特徴としている。
文献では検討されていないミニマックスの後悔基準に従って,グリーンセキュリティのための堅牢なシーケンシャルパトロール計画に着目する。
対戦行動のパラメータ値を制御するディフェンダーと自然のゲームとしてこの問題を定式化し,ロバストなポリシーを見つけるアルゴリズムMIRRORを設計する。
- 参考スコア(独自算出の注目度): 50.03819244940543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Green security domains feature defenders who plan patrols in the face of
uncertainty about the adversarial behavior of poachers, illegal loggers, and
illegal fishers. Importantly, the deterrence effect of patrols on adversaries'
future behavior makes patrol planning a sequential decision-making problem.
Therefore, we focus on robust sequential patrol planning for green security
following the minimax regret criterion, which has not been considered in the
literature. We formulate the problem as a game between the defender and nature
who controls the parameter values of the adversarial behavior and design an
algorithm MIRROR to find a robust policy. MIRROR uses two reinforcement
learning-based oracles and solves a restricted game considering limited
defender strategies and parameter values. We evaluate MIRROR on real-world
poaching data.
- Abstract(参考訳): グリーン・セキュリティ・ドメインは、密猟者、違法なロガー、違法な漁師の敵対行動の不確実さに直面してパトロールを計画する被告を特徴としている。
重要なことに、敵の将来の行動に対するパトロールの抑止効果は、パトロール計画が逐次的な意思決定問題となる。
そこで本研究では,未検討のミニマックス後悔基準に従って,グリーンセキュリティのための堅牢なシーケンシャルパトロール計画に焦点を当てた。
我々は,敵行動のパラメータ値を制御するディフェンダーと自然とのゲームとして問題を定式化し,ロバストな方針を見つけるためのアルゴリズムミラーを設計する。
MIRRORは2つの強化学習に基づくオラクルを使用し、限定的なディフェンダー戦略とパラメータ値を考慮して制限されたゲームを解決する。
実世界のポーチデータに基づいてMIRRORを評価する。
関連論文リスト
- Patrol Security Game: Defending Against Adversary with Freedom in Attack Timing, Location, and Duration [4.765278970103286]
パトロール・セキュリティ・ゲーム(Patrol Security Game、PSG)は、ロボットパトロール問題である。
我々の目標は、攻撃者の時間的地平線を最小化する合成スケジュールを考案することである。
論文 参考訳(メタデータ) (2024-10-21T02:53:18Z) - Preserving the Privacy of Reward Functions in MDPs through Deception [13.664014596337037]
多くの物理的およびサイバーセキュリティドメインにおいて、決定が監視可能である場合、シーケンシャルな意思決定エージェントの好み(または報酬)のプライバシを保存することが不可欠である。
本稿では,MDPにおける行動の連続を計画する際のプライバシ保護について論じる。
論文 参考訳(メタデータ) (2024-07-13T09:03:22Z) - Refining Minimax Regret for Unsupervised Environment Design [15.281908507614512]
我々は,ミニマックス後悔目標の洗練であるレベル・パーフェクトMMRを導入する。
我々は,BLP政策がすべてのレベルにおける完全ベイズ政策と一貫して振る舞うことを示す。
また、収束時にBLPポリシーをもたらすアルゴリズムReMiDiを導入する。
論文 参考訳(メタデータ) (2024-02-19T16:51:29Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Game-theoretic Objective Space Planning [4.989480853499916]
他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
本稿では,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
論文 参考訳(メタデータ) (2022-09-16T07:35:20Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Dual-Mandate Patrols: Multi-Armed Bandits for Green Security [67.29846393678808]
野生生物や森林を保護するため、グリーン・セキュリティ・ドメインの保全努力は、守備隊の限られた利用範囲によって制限されている。
我々はこの問題を多武装の盗賊として定式化し、それぞれの行動がパトロール戦略を表す。
我々のアルゴリズムであるLIZARDは、カンボジアの現実世界の密猟データの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-09-14T16:40:44Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。