論文の概要: Dual-Mandate Patrols: Multi-Armed Bandits for Green Security
- arxiv url: http://arxiv.org/abs/2009.06560v2
- Date: Tue, 15 Dec 2020 05:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 11:40:12.370921
- Title: Dual-Mandate Patrols: Multi-Armed Bandits for Green Security
- Title(参考訳): Dual-Mandate Patrols: グリーンセキュリティのためのマルチアーマッドバンド
- Authors: Lily Xu, Elizabeth Bondi, Fei Fang, Andrew Perrault, Kai Wang, Milind
Tambe
- Abstract要約: 野生生物や森林を保護するため、グリーン・セキュリティ・ドメインの保全努力は、守備隊の限られた利用範囲によって制限されている。
我々はこの問題を多武装の盗賊として定式化し、それぞれの行動がパトロール戦略を表す。
我々のアルゴリズムであるLIZARDは、カンボジアの現実世界の密猟データの性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 63.968505658379705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conservation efforts in green security domains to protect wildlife and
forests are constrained by the limited availability of defenders (i.e.,
patrollers), who must patrol vast areas to protect from attackers (e.g.,
poachers or illegal loggers). Defenders must choose how much time to spend in
each region of the protected area, balancing exploration of infrequently
visited regions and exploitation of known hotspots. We formulate the problem as
a stochastic multi-armed bandit, where each action represents a patrol
strategy, enabling us to guarantee the rate of convergence of the patrolling
policy. However, a naive bandit approach would compromise short-term
performance for long-term optimality, resulting in animals poached and forests
destroyed. To speed up performance, we leverage smoothness in the reward
function and decomposability of actions. We show a synergy between
Lipschitz-continuity and decomposition as each aids the convergence of the
other. In doing so, we bridge the gap between combinatorial and Lipschitz
bandits, presenting a no-regret approach that tightens existing guarantees
while optimizing for short-term performance. We demonstrate that our algorithm,
LIZARD, improves performance on real-world poaching data from Cambodia.
- Abstract(参考訳): グリーン・セキュリティ・ドメインにおける野生動物や森林を保護する保護活動は、攻撃者(密猟者や不法伐採者など)から守るために広大な地域をパトロールしなければならない防衛者(パトロール者など)が限られている。
守備隊は保護地域の各地域でどれだけの時間を費やすかを決め、頻繁に訪れた地域を探検し、既知のホットスポットを搾取する。
我々は、この問題を、各行動がパトロール戦略を表す確率的多武装バンディットとして定式化し、パトロール政策の収束率の保証を可能にする。
しかし、ナイーブ・バンディットのアプローチは長期的な最適性のために短期的なパフォーマンスを損なうことになり、動物が密猟され森林が破壊された。
性能向上のために,報酬関数の滑らかさと動作の分解可能性を活用する。
リプシッツ連続性と分解の相乗効果を示す。
その際、組合せとリプシッツの帯域幅のギャップを埋め、短期性能を最適化しながら既存の保証を厳格化するための非相対的なアプローチを提案する。
我々のアルゴリズムであるLIZARDはカンボジアの現実世界の密猟データの性能を向上させることを実証する。
関連論文リスト
- Patrol Security Game: Defending Against Adversary with Freedom in Attack Timing, Location, and Duration [4.765278970103286]
パトロール・セキュリティ・ゲーム(Patrol Security Game、PSG)は、ロボットパトロール問題である。
我々の目標は、攻撃者の時間的地平線を最小化する合成スケジュールを考案することである。
論文 参考訳(メタデータ) (2024-10-21T02:53:18Z) - Multi-Agent Reinforcement Learning for Joint Police Patrol and Dispatch [13.336551874123796]
本稿では,複数エージェントのパトロールとディスパッチを協調的に最適化し,迅速な応答時間を示すポリシーを学習するための新しい手法を提案する。
本手法は,各パトロールラーを独立Qラーナー(エージェント)として,状態-作用値を表す共有深度Q-ネットワークで処理する。
この異種多エージェント強化学習アプローチは,パトロールやディスパッチのみを最適化するポリシを学習可能であることを実証する。
論文 参考訳(メタデータ) (2024-09-03T19:19:57Z) - Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z) - Autonomous Vehicle Patrolling Through Deep Reinforcement Learning:
Learning to Communicate and Cooperate [3.79830302036482]
最適なパトロール戦略を見つけることは、風や風景のような未知の環境要因のために困難である。
エージェントは、障害が発生した場合にパトロール中に協力するための独自の通信プロトコルを開発するように訓練される。
この解はシミュレーション実験によって検証され、様々な観点から最先端のパトロールソリューションと比較される。
論文 参考訳(メタデータ) (2024-01-28T14:29:30Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Ranked Prioritization of Groups in Combinatorial Bandit Allocation [62.24280332575472]
我々は,種々に対する報酬を交換する新たな盗賊的目標を提案する。
この目的をリプシッツ連続報酬関数の重み付き線型和として表すことができる。
論文 参考訳(メタデータ) (2022-05-11T17:40:29Z) - Robust Reinforcement Learning Under Minimax Regret for Green Security [50.03819244940543]
グリーン・セキュリティ・ドメインは、密猟者、違法なロガー、違法な漁師の敵対行動の不確実さに直面してパトロールを計画する被告を特徴としている。
文献では検討されていないミニマックスの後悔基準に従って,グリーンセキュリティのための堅牢なシーケンシャルパトロール計画に着目する。
対戦行動のパラメータ値を制御するディフェンダーと自然のゲームとしてこの問題を定式化し,ロバストなポリシーを見つけるアルゴリズムMIRRORを設計する。
論文 参考訳(メタデータ) (2021-06-15T20:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。