論文の概要: Deep reinforcement learning for the dynamic vehicle dispatching problem:
An event-based approach
- arxiv url: http://arxiv.org/abs/2307.07508v1
- Date: Thu, 13 Jul 2023 16:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:04:21.475776
- Title: Deep reinforcement learning for the dynamic vehicle dispatching problem:
An event-based approach
- Title(参考訳): 動的車両派遣問題に対する深部強化学習:イベントベースアプローチ
- Authors: Edyvalberty Alenquer Cordeiro, Anselmo Ramalho Pitombeira-Neto
- Abstract要約: この問題を半マルコフ決定プロセスとしてモデル化することで、時間を連続的に扱うことができます。
イベントベースのアプローチは決定空間の複雑さを大幅に減らし、離散時間モデルの他の制限を克服する、と我々は主張する。
その結果、我々の政策は平均待ち時間、キャンセル率、サービス全体の時間に優れており、他のテスト済みのポリシーと比較して最大50%の削減が期待できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dynamic vehicle dispatching problem corresponds to deciding which
vehicles to assign to requests that arise stochastically over time and space.
It emerges in diverse areas, such as in the assignment of trucks to loads to be
transported; in emergency systems; and in ride-hailing services. In this paper,
we model the problem as a semi-Markov decision process, which allows us to
treat time as continuous. In this setting, decision epochs coincide with
discrete events whose time intervals are random. We argue that an event-based
approach substantially reduces the combinatorial complexity of the decision
space and overcomes other limitations of discrete-time models often proposed in
the literature. In order to test our approach, we develop a new discrete-event
simulator and use double deep q-learning to train our decision agents.
Numerical experiments are carried out in realistic scenarios using data from
New York City. We compare the policies obtained through our approach with
heuristic policies often used in practice. Results show that our policies
exhibit better average waiting times, cancellation rates and total service
times, with reduction in average waiting times of up to 50% relative to the
other tested heuristic policies.
- Abstract(参考訳): 動的車両派遣問題は、時間と空間とともに確率的に発生する要求にどの車両を割り当てるかを決定することに対応する。
輸送用トラックの積み荷の割り当て、緊急システム、配車サービスなど、様々な地域で出現する。
本稿では,この問題を半マルコフ決定プロセスとしてモデル化し,連続的な時間処理を可能にする。
この設定では、決定エポックは時間間隔がランダムである離散イベントと一致する。
イベントベースのアプローチは、決定空間の組合せ複雑性を大幅に減らし、文献でしばしば提案される離散時間モデルの他の制限を克服する。
このアプローチをテストするために,我々は新しい離散イベントシミュレータを開発し,ダブルディープq学習を用いて決定エージェントを訓練する。
ニューヨーク市のデータを用いて現実的なシナリオで数値実験を行う。
我々のアプローチで得られた政策と、実際によく使われるヒューリスティックな政策を比較します。
その結果, 平均待ち時間, キャンセル率, サービス時間の合計は, 他のテスト済みヒューリスティック・ポリシーと比較して50%程度減少していることがわかった。
関連論文リスト
- Contextual Stochastic Vehicle Routing with Time Windows [47.91283991228738]
本研究は,車両経路問題に時間窓 (VRPTW) と走行時間を用いて検討する。
観測された特徴に照らし合わせて,輸送コストと到着遅れの罰則を最小化する,文脈的VRPTWを導入する。
本稿では,歴史データを用いた新しいデータ駆動規範モデルを提案する。
論文 参考訳(メタデータ) (2024-02-10T14:56:36Z) - A Reinforcement Learning Approach for Dynamic Rebalancing in
Bike-Sharing System [11.237099288412558]
自転車シェアリングシステムはエコフレンドリーな都市移動を提供し、交通渋滞と健康的な生活様式の緩和に貢献している。
駅間で自転車を再分配するための車両を用いた効果的な再バランス戦略の開発は、オペレーターにとって非常に重要である。
本稿では,複数の車両との動的再バランス問題に対する時間的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-05T23:46:42Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Exploring the Multi-modal Demand Dynamics During Transport System
Disruptions [0.47267770920095536]
本研究は、データ駆動型アプローチを用いて、ディスラプション下でのマルチモーダル需要ダイナミクスを探索する。
まず、過去の時間旅行需要データから異常なインスタンスを自動的に検出する手法を開発した。
そして、これらの異常時間にクラスタリングを適用し、破壊時に発生する様々な形態のマルチモーダル需要動態を識別する。
論文 参考訳(メタデータ) (2023-07-03T09:15:28Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - H-TD2: Hybrid Temporal Difference Learning for Adaptive Urban Taxi
Dispatch [9.35511513240868]
H-TD2はモデルフリーで適応的な意思決定アルゴリズムであり、動的な都市環境下で多数の自動タクシーを協調する。
計算複雑性と個別のタクシー政策の限定された部分最適化とのトレードオフを明示的に制御するために、2つの行動の間のトリガ条件を記述・規定する。
最近の強化学習ディスパッチ法とは異なり、このポリシ推定はトレーニング外ドメインイベントに適応し、堅牢である。
論文 参考訳(メタデータ) (2021-05-05T15:42:31Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。