論文の概要: Dual-Mandate Patrols: Multi-Armed Bandits for Green Security
- arxiv url: http://arxiv.org/abs/2009.06560v3
- Date: Fri, 26 Apr 2024 13:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 18:47:13.510327
- Title: Dual-Mandate Patrols: Multi-Armed Bandits for Green Security
- Title(参考訳): Dual-Mandate Patrols: グリーンセキュリティのためのマルチアーマッドバンド
- Authors: Lily Xu, Elizabeth Bondi, Fei Fang, Andrew Perrault, Kai Wang, Milind Tambe,
- Abstract要約: 野生生物や森林を保護するため、グリーン・セキュリティ・ドメインの保全努力は、守備隊の限られた利用範囲によって制限されている。
我々はこの問題を多武装の盗賊として定式化し、それぞれの行動がパトロール戦略を表す。
我々のアルゴリズムであるLIZARDは、カンボジアの現実世界の密猟データの性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 67.29846393678808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conservation efforts in green security domains to protect wildlife and forests are constrained by the limited availability of defenders (i.e., patrollers), who must patrol vast areas to protect from attackers (e.g., poachers or illegal loggers). Defenders must choose how much time to spend in each region of the protected area, balancing exploration of infrequently visited regions and exploitation of known hotspots. We formulate the problem as a stochastic multi-armed bandit, where each action represents a patrol strategy, enabling us to guarantee the rate of convergence of the patrolling policy. However, a naive bandit approach would compromise short-term performance for long-term optimality, resulting in animals poached and forests destroyed. To speed up performance, we leverage smoothness in the reward function and decomposability of actions. We show a synergy between Lipschitz-continuity and decomposition as each aids the convergence of the other. In doing so, we bridge the gap between combinatorial and Lipschitz bandits, presenting a no-regret approach that tightens existing guarantees while optimizing for short-term performance. We demonstrate that our algorithm, LIZARD, improves performance on real-world poaching data from Cambodia.
- Abstract(参考訳): 野生生物や森林を保護するため、グリーン・セキュリティ・ドメインの保護活動は、攻撃者(例えば密猟者や違法な伐採者)から保護するために広大な地域をパトロールしなければならない防衛者(パトロール業者)の限られた可用性によって制限されている。
被告は保護地域の各地域でどれだけの時間を過ごすかを選択し、頻繁に訪れる地域を探索し、既知のホットスポットを搾取するバランスをとる必要がある。
各行動がパトロール戦略を表し、パトロール政策の収束率を保証できる確率的多武装バンディットとしてこの問題を定式化する。
しかし、ナイーブ・バンディットのアプローチは長期的な最適性のために短期的なパフォーマンスを損なうことになり、動物が密猟され森林が破壊される結果となった。
性能向上のために,報酬関数の滑らかさと動作の分解可能性を活用する。
リプシッツ連続性と分解の相乗効果を示す。
その際、組合せとリプシッツの帯域幅のギャップを埋め、短期的な性能を最適化しながら、既存の保証を厳格化するための非相対的なアプローチを提示します。
我々のアルゴリズムであるLIZARDは、カンボジアの現実世界の密猟データの性能を向上させることを実証する。
関連論文リスト
- Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z) - Autonomous Vehicle Patrolling Through Deep Reinforcement Learning:
Learning to Communicate and Cooperate [3.79830302036482]
最適なパトロール戦略を見つけることは、風や風景のような未知の環境要因のために困難である。
エージェントは、障害が発生した場合にパトロール中に協力するための独自の通信プロトコルを開発するように訓練される。
この解はシミュレーション実験によって検証され、様々な観点から最先端のパトロールソリューションと比較される。
論文 参考訳(メタデータ) (2024-01-28T14:29:30Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - An Energy-aware and Fault-tolerant Deep Reinforcement Learning based
approach for Multi-agent Patrolling Problems [0.5008597638379226]
モデルのない深層マルチエージェント強化学習に基づく手法を提案する。
エージェントは、様々な未知のダイナミクスや要因で環境をパトロールするように訓練される。
連続的なパトロールを支援するために自動的に充電することができる。
このアーキテクチャは、パトロールシステムを提供し、エージェントの障害を許容し、サプリメントエージェントを追加して、失敗したエージェントを置き換えたり、全体的なパトロール性能を向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T01:38:35Z) - Ranked Prioritization of Groups in Combinatorial Bandit Allocation [62.24280332575472]
我々は,種々に対する報酬を交換する新たな盗賊的目標を提案する。
この目的をリプシッツ連続報酬関数の重み付き線型和として表すことができる。
論文 参考訳(メタデータ) (2022-05-11T17:40:29Z) - Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk [45.87122314291089]
本研究は,安全リスク制約下でのマルチアームバンディット問題に対する,自然だが意外な未研究のアプローチについて検討する。
我々は、いかなる違反に対してもソフトに罰則を課すことにより、この安全制約を丸ごと強制する、この設定に対する擬似回帰を定式化する。
これは、総合的な意味でではなく、各ラウンドの安全を維持する必要がある臨床試験のようなシナリオに実践的に関係している。
論文 参考訳(メタデータ) (2022-04-01T22:08:03Z) - Robust Reinforcement Learning Under Minimax Regret for Green Security [50.03819244940543]
グリーン・セキュリティ・ドメインは、密猟者、違法なロガー、違法な漁師の敵対行動の不確実さに直面してパトロールを計画する被告を特徴としている。
文献では検討されていないミニマックスの後悔基準に従って,グリーンセキュリティのための堅牢なシーケンシャルパトロール計画に着目する。
対戦行動のパラメータ値を制御するディフェンダーと自然のゲームとしてこの問題を定式化し,ロバストなポリシーを見つけるアルゴリズムMIRRORを設計する。
論文 参考訳(メタデータ) (2021-06-15T20:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。