論文の概要: Optimal Dispatch in Emergency Service System via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.07513v1
- Date: Thu, 15 Oct 2020 04:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 05:39:16.671555
- Title: Optimal Dispatch in Emergency Service System via Reinforcement Learning
- Title(参考訳): 強化学習による緊急サービスシステムの最適派遣
- Authors: Cheng Hua and Tauhid Zaman
- Abstract要約: アメリカ合衆国では、過去40年間の消防署の医療反応が367%増加した。
本稿では, 救急搬送問題を平均コストのマルコフ決定プロセスとしてモデル化し, 最適な派遣方針を見つけるための政策反復手法を提案する。
以上の結果から,緊急対応部は最小限の費用でパフォーマンスを向上できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the United States, medical responses by fire departments over the last
four decades increased by 367%. This had made it critical to decision makers in
emergency response departments that existing resources are efficiently used. In
this paper, we model the ambulance dispatch problem as an average-cost Markov
decision process and present a policy iteration approach to find an optimal
dispatch policy. We then propose an alternative formulation using post-decision
states that is shown to be mathematically equivalent to the original model, but
with a much smaller state space. We present a temporal difference learning
approach to the dispatch problem based on the post-decision states. In our
numerical experiments, we show that our obtained temporal-difference policy
outperforms the benchmark myopic policy. Our findings suggest that emergency
response departments can improve their performance with minimal to no cost.
- Abstract(参考訳): アメリカ合衆国では、過去40年間の消防署の医療反応が367%増加した。
これにより、緊急対応部門の意思決定者にとって、既存のリソースが効率的に使用されることが重要になった。
本稿では,救急搬送問題を平均コストマルコフ決定プロセスとしてモデル化し,最適な派遣方針を求めるための政策反復アプローチを提案する。
次に、元のモデルに数学的に同値であるが、より小さい状態空間を持つと示される、決定後状態を用いた別の定式化を提案する。
本稿では,決定後状態に基づくディスパッチ問題に対する時間差学習手法を提案する。
数値実験により, 得られた時間差ポリシーが, 基準筋力政策よりも優れていることを示した。
以上より,緊急対応部は最小限の費用で性能を向上できることが示唆された。
関連論文リスト
- Multi-Agent Reinforcement Learning for Joint Police Patrol and Dispatch [13.336551874123796]
本稿では,複数エージェントのパトロールとディスパッチを協調的に最適化し,迅速な応答時間を示すポリシーを学習するための新しい手法を提案する。
本手法は,各パトロールラーを独立Qラーナー(エージェント)として,状態-作用値を表す共有深度Q-ネットワークで処理する。
この異種多エージェント強化学習アプローチは,パトロールやディスパッチのみを最適化するポリシを学習可能であることを実証する。
論文 参考訳(メタデータ) (2024-09-03T19:19:57Z) - Multi-Agent Reinforcement Learning with Hierarchical Coordination for Emergency Responder Stationing [8.293120269016834]
緊急対応者管理システム(ERM)は、医療援助の要請を受けたときに対応者を派遣する。
ERMシステムは、任意のギャップをカバーするために予め指定された待機場所間で応答器を積極的に再配置することができる。
プロアクティブな再配置における最先端のアプローチは、空間分解とオンラインモンテカルロ木探索に基づく階層的なアプローチである。
同じ階層的な分解に基づく新しい強化学習(RL)アプローチを導入するが、オンライン検索を学習に置き換える。
論文 参考訳(メタデータ) (2024-05-21T21:15:45Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Deep reinforcement learning for the dynamic vehicle dispatching problem:
An event-based approach [0.0]
この問題を半マルコフ決定プロセスとしてモデル化することで、時間を連続的に扱うことができます。
イベントベースのアプローチは決定空間の複雑さを大幅に減らし、離散時間モデルの他の制限を克服する、と我々は主張する。
その結果、我々の政策は平均待ち時間、キャンセル率、サービス全体の時間に優れており、他のテスト済みのポリシーと比較して最大50%の削減が期待できることがわかった。
論文 参考訳(メタデータ) (2023-07-13T16:29:25Z) - Evaluating COVID-19 vaccine allocation policies using Bayesian $m$-top
exploration [53.122045119395594]
マルチアーム・バンディット・フレームワークを用いてワクチンのアロケーション戦略を評価する新しい手法を提案する。
$m$-top Exploringにより、アルゴリズムは最高のユーティリティを期待する$m$ポリシーを学ぶことができる。
ベルギーのCOVID-19流行を個人モデルSTRIDEを用いて検討し、予防接種方針のセットを学習する。
論文 参考訳(メタデータ) (2023-01-30T12:22:30Z) - Modelling Hospital Strategies in City-Scale Ambulance Dispatching [0.0]
本稿では,大都市におけるマルチエージェント医療環境における救急搬送プロセスのモデル化とシミュレーション手法を提案する。
提案手法は,統合ゲーム理論 (GT) を用いて病院戦略を同定することに基づく。
本研究は, 対象病院のPCIに誘導されたACS患者に救急車を派遣する際の問題点について考察した。
論文 参考訳(メタデータ) (2022-01-05T22:20:12Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文 参考訳(メタデータ) (2020-11-02T08:46:27Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。