論文の概要: Multi-Agent Reinforcement Learning for Joint Police Patrol and Dispatch
- arxiv url: http://arxiv.org/abs/2409.02246v1
- Date: Tue, 3 Sep 2024 19:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 21:27:46.231609
- Title: Multi-Agent Reinforcement Learning for Joint Police Patrol and Dispatch
- Title(参考訳): 複合型警察パトロールとディスパッチのためのマルチエージェント強化学習
- Authors: Matthew Repasky, He Wang, Yao Xie,
- Abstract要約: 本稿では,複数エージェントのパトロールとディスパッチを協調的に最適化し,迅速な応答時間を示すポリシーを学習するための新しい手法を提案する。
本手法は,各パトロールラーを独立Qラーナー(エージェント)として,状態-作用値を表す共有深度Q-ネットワークで処理する。
この異種多エージェント強化学習アプローチは,パトロールやディスパッチのみを最適化するポリシを学習可能であることを実証する。
- 参考スコア(独自算出の注目度): 13.336551874123796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Police patrol units need to split their time between performing preventive patrol and being dispatched to serve emergency incidents. In the existing literature, patrol and dispatch decisions are often studied separately. We consider joint optimization of these two decisions to improve police operations efficiency and reduce response time to emergency calls. Methodology/results: We propose a novel method for jointly optimizing multi-agent patrol and dispatch to learn policies yielding rapid response times. Our method treats each patroller as an independent Q-learner (agent) with a shared deep Q-network that represents the state-action values. The dispatching decisions are chosen using mixed-integer programming and value function approximation from combinatorial action spaces. We demonstrate that this heterogeneous multi-agent reinforcement learning approach is capable of learning joint policies that outperform those optimized for patrol or dispatch alone. Managerial Implications: Policies jointly optimized for patrol and dispatch can lead to more effective service while targeting demonstrably flexible objectives, such as those encouraging efficiency and equity in response.
- Abstract(参考訳): 警察パトロール隊は、予防パトロールと非常事態に備えて派遣される期間を分ける必要がある。
現存する文献では、パトロールと派遣の決定は別々に研究されることが多い。
我々は,これらの2つの決定を共同で最適化し,警察活動の効率化と緊急呼び出しに対する応答時間を短縮する。
提案手法は,複数エージェントのパトロールとディスパッチを協調的に最適化し,迅速な応答時間をもたらすポリシーを学習するための新しい手法である。
本手法は,各パトロールラーを独立Qラーナー(エージェント)として,状態-作用値を表す共有深度Q-ネットワークで処理する。
ディスパッチ決定は、混合整数プログラミングと組合せアクション空間からの値関数近似を用いて選択される。
この異種多エージェント強化学習アプローチは、パトロールやディスパッチに最適化された手法よりも優れたジョイントポリシーを学習できることを示す。
管理上の意味: パトロールとディスパッチに共同で最適化されたポリシーは、より効果的なサービスにつながり得る一方で、例えば効率性とレスポンスの株式を奨励するといった、明らかに柔軟な目標を目標にしている。
関連論文リスト
- Multi-Agent Transfer Learning via Temporal Contrastive Learning [8.487274986507922]
本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。
このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。
論文 参考訳(メタデータ) (2024-06-03T14:42:14Z) - Best Response Shaping [1.0874100424278175]
LOLAとPOLAのエージェントは、相手のルックアヘッド最適化ステップを通じて、相互性に基づく協調政策を区別することで学習する。
彼らはいくつかの最適化ステップを考慮するので、そのリターンを最適化するために多くのステップを踏む学習相手がそれらを活用できるかもしれない。
そこで本研究では,Best Response Shaping (BRS) という新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-05T22:03:35Z) - Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks [51.00472376469131]
多様な介護者対応を訓練することで、ロバストな介護者の方針を学習する枠組みを提案する。
一般的な深層RL法で訓練されたポリシーは、他のエージェントのポリシーの変更に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-03-01T08:15:18Z) - Autonomous Vehicle Patrolling Through Deep Reinforcement Learning:
Learning to Communicate and Cooperate [3.79830302036482]
最適なパトロール戦略を見つけることは、風や風景のような未知の環境要因のために困難である。
エージェントは、障害が発生した場合にパトロール中に協力するための独自の通信プロトコルを開発するように訓練される。
この解はシミュレーション実験によって検証され、様々な観点から最先端のパトロールソリューションと比較される。
論文 参考訳(メタデータ) (2024-01-28T14:29:30Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - An Energy-aware and Fault-tolerant Deep Reinforcement Learning based
approach for Multi-agent Patrolling Problems [0.5008597638379226]
モデルのない深層マルチエージェント強化学習に基づく手法を提案する。
エージェントは、様々な未知のダイナミクスや要因で環境をパトロールするように訓練される。
連続的なパトロールを支援するために自動的に充電することができる。
このアーキテクチャは、パトロールシステムを提供し、エージェントの障害を許容し、サプリメントエージェントを追加して、失敗したエージェントを置き換えたり、全体的なパトロール性能を向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T01:38:35Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。