論文の概要: Real-Time Integrated Dispatching and Idle Fleet Steering with Deep Reinforcement Learning for A Meal Delivery Platform
- arxiv url: http://arxiv.org/abs/2501.05808v1
- Date: Fri, 10 Jan 2025 09:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:29.598068
- Title: Real-Time Integrated Dispatching and Idle Fleet Steering with Deep Reinforcement Learning for A Meal Delivery Platform
- Title(参考訳): 食肉配送プラットフォームのための深部強化学習によるリアルタイム統合ディスパッチとアイドルフリートステアリング
- Authors: Jingyi Cheng, Shadi Sharif Azadeh,
- Abstract要約: 本研究は,食事提供プラットフォームにおけるリアルタイム注文派遣とアイドルクーリエステアリングの問題を解決することを目的としている。
強化学習(RL)に基づく戦略的二重制御フレームワークを提案する。
宅配業者間での配送効率と作業負荷分布の公平性が改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: To achieve high service quality and profitability, meal delivery platforms like Uber Eats and Grubhub must strategically operate their fleets to ensure timely deliveries for current orders while mitigating the consequential impacts of suboptimal decisions that leads to courier understaffing in the future. This study set out to solve the real-time order dispatching and idle courier steering problems for a meal delivery platform by proposing a reinforcement learning (RL)-based strategic dual-control framework. To address the inherent sequential nature of these problems, we model both order dispatching and courier steering as Markov Decision Processes. Trained via a deep reinforcement learning (DRL) framework, we obtain strategic policies by leveraging the explicitly predicted demands as part of the inputs. In our dual-control framework, the dispatching and steering policies are iteratively trained in an integrated manner. These forward-looking policies can be executed in real-time and provide decisions while jointly considering the impacts on local and network levels. To enhance dispatching fairness, we propose convolutional deep Q networks to construct fair courier embeddings. To simultaneously rebalance the supply and demand within the service network, we propose to utilize mean-field approximated supply-demand knowledge to reallocate idle couriers at the local level. Utilizing the policies generated by the RL-based strategic dual-control framework, we find the delivery efficiency and fairness of workload distribution among couriers have been improved, and under-supplied conditions have been alleviated within the service network. Our study sheds light on designing an RL-based framework to enable forward-looking real-time operations for meal delivery platforms and other on-demand services.
- Abstract(参考訳): サービスの品質と収益性を達成するために、Uber EatsやGrubhubのようなフードデリバリープラットフォームは、現在の注文に対するタイムリーな配送を確実にするために、戦略的に運用する必要がある。
本研究は,RLを基盤とした戦略的二重制御フレームワークを提案することにより,食事提供プラットフォームにおけるリアルタイム注文の派遣とアイドルクーリエステアリングの問題を解決することを目的としている。
これらの問題の本質的なシーケンシャルな性質に対処するために、注文ディスパッチとクーリエステアリングの両方をマルコフ決定プロセスとしてモデル化する。
深層強化学習(DRL)フレームワークを用いて学習し、入力の一部として明示的に予測された要求を活用することによって戦略方針を得る。
当社のデュアルコントロールフレームワークでは、ディスパッチとステアリングポリシは、統合された方法で反復的にトレーニングされています。
これらの前向きなポリシーはリアルタイムで実行でき、ローカルおよびネットワークレベルへの影響を共同で検討しながら決定を提供する。
公平性を高めるために,公平なクーリエ埋め込みを構築するために,畳み込み型深層Qネットワークを提案する。
サービスネットワーク内の需給と需給の両立を図るため,地域レベルでのアイドルクーリエの再配置に平均フィールド近似的な需給知識を活用することを提案する。
RLをベースとした戦略的二重制御フレームワークが生み出すポリシを利用することで、クーリエ間の作業負荷分散のデリバリ効率と公平性が向上し、サービスネットワーク内での供給不足が軽減された。
我々の研究は、食事デリバリープラットフォームや他のオンデマンドサービスのための前方視のリアルタイム操作を可能にするRLベースのフレームワークの設計に光を当てています。
関連論文リスト
- Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。
本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。
メタラーニング戦略を導入することで、大規模なTPPインスタンス上で安定してポリシーネットワークをトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-03T05:32:10Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand
Distribution [48.27759561064771]
我々は[Cachon and Zipkin, 1999]で導入された2つのエケロンサプライチェーンモデルについて, 2つの異なる設定で検討する。
両設定の最適在庫決定に対する後悔と収束の両面において良好な保証を達成するアルゴリズムを設計する。
私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。
論文 参考訳(メタデータ) (2022-10-23T08:45:39Z) - Off-line approximate dynamic programming for the vehicle routing problem
with stochastic customers and demands via decentralized decision-making [0.0]
本稿では,顧客の位置と需要が不確実な車両経路問題(VRP)の変種について検討する。
目的は、車両の容量と時間制限を満たしながら、提供された要求を最大化することである。
本稿では,Replay MemoryやDouble Q Networkといった最先端のアクセラレーション技術を用いたQラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-21T14:28:09Z) - A Deep Reinforcement Learning Approach for Constrained Online Logistics
Route Assignment [4.367543599338385]
物流業界にとって、各出荷区画に適切な物流ルートを割り当てる方法が不可欠である。
このオンライン経路割り当て問題は、制約付きオンライン意思決定問題とみなすことができる。
我々はPPO-RAと呼ばれるモデルフリーDRLアプローチを開発し、経路割当(RA)の課題に対処する専用の技術を用いてPPO(Pximal Policy Optimization)を改善した。
論文 参考訳(メタデータ) (2021-09-08T07:27:39Z) - A Modular and Transferable Reinforcement Learning Framework for the
Fleet Rebalancing Problem [2.299872239734834]
モデルフリー強化学習(RL)に基づく艦隊再バランスのためのモジュラーフレームワークを提案する。
動作領域のグリッド上の分布としてRL状態とアクション空間を定式化し,フレームワークをスケーラブルにする。
実世界の旅行データとネットワークデータを用いた数値実験は、このアプローチがベースライン法よりもいくつかの異なる利点があることを実証している。
論文 参考訳(メタデータ) (2021-05-27T16:32:28Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Vehicular Cooperative Perception Through Action Branching and Federated
Reinforcement Learning [101.64598586454571]
強化学習に基づく車両関連、リソースブロック(RB)割り当て、協調認識メッセージ(CPM)のコンテンツ選択を可能にする新しいフレームワークが提案されている。
車両全体のトレーニングプロセスをスピードアップするために、フェデレーションRLアプローチが導入されます。
その結果、フェデレーションRLはトレーニングプロセスを改善し、非フェデレーションアプローチと同じ時間内により良いポリシーを達成できることが示された。
論文 参考訳(メタデータ) (2020-12-07T02:09:15Z) - Deep Reinforcement Learning for Crowdsourced Urban Delivery: System
States Characterization, Heuristics-guided Action Choice, and
Rule-Interposing Integration [0.8099700053397277]
本稿では,クラウドソーシング型都市デリバリの文脈において,アドホック宅配業者に送料要求を割り当てることの問題点について検討する。
本稿では,この課題に対処するための新しい深層強化学習(DRL)アプローチを提案する。
論文 参考訳(メタデータ) (2020-11-29T19:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。