Fugu-MT 論文翻訳(概要): Dual-Mandate Patrols: Multi-Armed Bandits for Green Security

論文の概要: Dual-Mandate Patrols: Multi-Armed Bandits for Green Security

arxiv url: http://arxiv.org/abs/2009.06560v3
Date: Fri, 26 Apr 2024 13:51:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 18:47:13.510327
Title: Dual-Mandate Patrols: Multi-Armed Bandits for Green Security
Title（参考訳）: Dual-Mandate Patrols: グリーンセキュリティのためのマルチアーマッドバンド
Authors: Lily Xu, Elizabeth Bondi, Fei Fang, Andrew Perrault, Kai Wang, Milind Tambe,
Abstract要約: 野生生物や森林を保護するため、グリーン・セキュリティ・ドメインの保全努力は、守備隊の限られた利用範囲によって制限されている。我々はこの問題を多武装の盗賊として定式化し、それぞれの行動がパトロール戦略を表す。我々のアルゴリズムであるLIZARDは、カンボジアの現実世界の密猟データの性能を向上させることを示す。
参考スコア（独自算出の注目度）: 67.29846393678808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conservation efforts in green security domains to protect wildlife and forests are constrained by the limited availability of defenders (i.e., patrollers), who must patrol vast areas to protect from attackers (e.g., poachers or illegal loggers). Defenders must choose how much time to spend in each region of the protected area, balancing exploration of infrequently visited regions and exploitation of known hotspots. We formulate the problem as a stochastic multi-armed bandit, where each action represents a patrol strategy, enabling us to guarantee the rate of convergence of the patrolling policy. However, a naive bandit approach would compromise short-term performance for long-term optimality, resulting in animals poached and forests destroyed. To speed up performance, we leverage smoothness in the reward function and decomposability of actions. We show a synergy between Lipschitz-continuity and decomposition as each aids the convergence of the other. In doing so, we bridge the gap between combinatorial and Lipschitz bandits, presenting a no-regret approach that tightens existing guarantees while optimizing for short-term performance. We demonstrate that our algorithm, LIZARD, improves performance on real-world poaching data from Cambodia.
Abstract（参考訳）: 野生生物や森林を保護するため、グリーン・セキュリティ・ドメインの保護活動は、攻撃者(例えば密猟者や違法な伐採者)から保護するために広大な地域をパトロールしなければならない防衛者(パトロール業者)の限られた可用性によって制限されている。被告は保護地域の各地域でどれだけの時間を過ごすかを選択し、頻繁に訪れる地域を探索し、既知のホットスポットを搾取するバランスをとる必要がある。各行動がパトロール戦略を表し、パトロール政策の収束率を保証できる確率的多武装バンディットとしてこの問題を定式化する。しかし、ナイーブ・バンディットのアプローチは長期的な最適性のために短期的なパフォーマンスを損なうことになり、動物が密猟され森林が破壊される結果となった。性能向上のために,報酬関数の滑らかさと動作の分解可能性を活用する。リプシッツ連続性と分解の相乗効果を示す。その際、組合せとリプシッツの帯域幅のギャップを埋め、短期的な性能を最適化しながら、既存の保証を厳格化するための非相対的なアプローチを提示します。我々のアルゴリズムであるLIZARDは、カンボジアの現実世界の密猟データの性能を向上させることを実証する。

関連論文リスト

Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文参考訳（メタデータ） (2025-03-01T21:25:21Z)
Patrol Security Game: Defending Against Adversary with Freedom in Attack Timing, Location, and Duration [4.765278970103286]
パトロール・セキュリティ・ゲーム(Patrol Security Game、PSG)は、ロボットパトロール問題である。我々の目標は、攻撃者の時間的地平線を最小化する合成スケジュールを考案することである。
論文参考訳（メタデータ） (2024-10-21T02:53:18Z)
Multi-Agent Reinforcement Learning for Joint Police Patrol and Dispatch [13.336551874123796]
本稿では,複数エージェントのパトロールとディスパッチを協調的に最適化し,迅速な応答時間を示すポリシーを学習するための新しい手法を提案する。本手法は,各パトロールラーを独立Qラーナー(エージェント)として,状態-作用値を表す共有深度Q-ネットワークで処理する。この異種多エージェント強化学習アプローチは,パトロールやディスパッチのみを最適化するポリシを学習可能であることを実証する。
論文参考訳（メタデータ） (2024-09-03T19:19:57Z)
Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文参考訳（メタデータ） (2024-02-07T18:34:38Z)
Autonomous Vehicle Patrolling Through Deep Reinforcement Learning: Learning to Communicate and Cooperate [3.79830302036482]
最適なパトロール戦略を見つけることは、風や風景のような未知の環境要因のために困難である。エージェントは、障害が発生した場合にパトロール中に協力するための独自の通信プロトコルを開発するように訓練される。この解はシミュレーション実験によって検証され、様々な観点から最先端のパトロールソリューションと比較される。
論文参考訳（メタデータ） (2024-01-28T14:29:30Z)
Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文参考訳（メタデータ） (2023-05-29T18:16:59Z)
Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文参考訳（メタデータ） (2023-04-21T16:19:54Z)
Ranked Prioritization of Groups in Combinatorial Bandit Allocation [62.24280332575472]
我々は,種々に対する報酬を交換する新たな盗賊的目標を提案する。この目的をリプシッツ連続報酬関数の重み付き線型和として表すことができる。
論文参考訳（メタデータ） (2022-05-11T17:40:29Z)
Robust Reinforcement Learning Under Minimax Regret for Green Security [50.03819244940543]
グリーン・セキュリティ・ドメインは、密猟者、違法なロガー、違法な漁師の敵対行動の不確実さに直面してパトロールを計画する被告を特徴としている。文献では検討されていないミニマックスの後悔基準に従って,グリーンセキュリティのための堅牢なシーケンシャルパトロール計画に着目する。対戦行動のパラメータ値を制御するディフェンダーと自然のゲームとしてこの問題を定式化し,ロバストなポリシーを見つけるアルゴリズムMIRRORを設計する。
論文参考訳（メタデータ） (2021-06-15T20:11:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。