論文の概要: Enhancing Courier Scheduling in Crowdsourced Last-Mile Delivery through
Dynamic Shift Extensions: A Deep Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2402.09961v1
- Date: Thu, 15 Feb 2024 14:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 15:23:15.968725
- Title: Enhancing Courier Scheduling in Crowdsourced Last-Mile Delivery through
Dynamic Shift Extensions: A Deep Reinforcement Learning Approach
- Title(参考訳): 動的シフト拡張によるクラウドソーシングラストマイル配送におけるcourierスケジューリングの強化:深層強化学習アプローチ
- Authors: Zead Saleh, Ahmad Al Hanbali, and Ahmad Baubaid
- Abstract要約: 本研究では,コミット型クーリエのシフト拡張によるオフラインスケジュールの動的調整の問題に焦点をあてる。
目的は、宅配業者のシフト拡大と宅配業者への依頼の割り当てを決定することにより、プラットフォーム利益を最大化することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowdsourced delivery platforms face complex scheduling challenges to match
couriers and customer orders. We consider two types of crowdsourced couriers,
namely, committed and occasional couriers, each with different compensation
schemes. Crowdsourced delivery platforms usually schedule committed courier
shifts based on predicted demand. Therefore, platforms may devise an offline
schedule for committed couriers before the planning period. However, due to the
unpredictability of demand, there are instances where it becomes necessary to
make online adjustments to the offline schedule. In this study, we focus on the
problem of dynamically adjusting the offline schedule through shift extensions
for committed couriers. This problem is modeled as a sequential decision
process. The objective is to maximize platform profit by determining the shift
extensions of couriers and the assignments of requests to couriers. To solve
the model, a Deep Q-Network (DQN) learning approach is developed. Comparing
this model with the baseline policy where no extensions are allowed
demonstrates the benefits that platforms can gain from allowing shift
extensions in terms of reward, reduced lost order costs, and lost requests.
Additionally, sensitivity analysis showed that the total extension compensation
increases in a nonlinear manner with the arrival rate of requests, and in a
linear manner with the arrival rate of occasional couriers. On the compensation
sensitivity, the results showed that the normal scenario exhibited the highest
average number of shift extensions and, consequently, the fewest average number
of lost requests. These findings serve as evidence of the successful learning
of such dynamics by the DQN algorithm.
- Abstract(参考訳): クラウドソーシングのデリバリプラットフォームは、クーリエと顧客の注文にマッチする複雑なスケジューリングの課題に直面している。
クラウドソーシング・クーリエの2つのタイプ,すなわちコミットと時々のクーリエを,それぞれ異なる補償方式で検討する。
クラウドソースの配信プラットフォームは通常、予測された需要に基づいて配送シフトをスケジュールする。
したがって、プラットフォームは計画期間の前にコミットされた宅配業者のオフラインスケジュールを作成できる。
しかし、需要の予測不可能のため、オフラインスケジュールをオンラインに調整する必要があるケースもある。
本研究では,コミット型クーリエのシフト拡張によるオフラインスケジュールの動的調整の問題に焦点をあてる。
この問題は逐次決定過程としてモデル化される。
その目的は、配送業者のシフト拡張と配送業者への要求の割り当てを決定することによって、プラットフォーム利益を最大化することにある。
このモデルを解くために,深層qネットワーク(dqn)学習手法を開発した。
このモデルと拡張を許可しないベースラインポリシーを比較すると、プラットフォームが報酬の面でシフト拡張を許可し、注文コストを削減し、要求をなくすことで得られるメリットが示される。
また,感度分析の結果,要求の到着率とともに非線形に総延長補償が増加し,時には搬送者の到着率と直線的に増加することがわかった。
補償感度では, 通常のシナリオでは, 平均シフト数が最も多く, その結果, 平均損失数が最も少なかった。
これらの発見は、DQNアルゴリズムによるそのような力学の学習の成功の証拠となる。
関連論文リスト
- Harvesting Efficient On-Demand Order Pooling from Skilled Couriers: Enhancing Graph Representation Learning for Refining Real-time Many-to-One Assignments [11.0829498096027]
オンデマンドフードデリバリー(OFD)サービスでは、注文後数十分以内に配送のフルフィルメントを提供する。
OFDでは、リアルタイムの順序割り当てで同時配信のために複数の順序をプールすることは、重要な効率源である。
オーダー割り当ての複雑さとリアルタイムの性質は、広範囲な計算を非現実的にし、オーダー統合の可能性を大幅に制限する。
SC配信ネットワーク(SC Delivery Network, SCDN)は、OFDに適した非均一なネットワーク埋め込みを改良した手法に基づいて構築される。
論文 参考訳(メタデータ) (2024-06-20T18:03:27Z) - Learning with Posterior Sampling for Revenue Management under Time-varying Demand [36.22276574805786]
価格設定項目やサービスによる収益を最大化するための収益管理問題について議論する。
この問題の1つの課題は、需要分布が未知であり、航空会社や小売業のような実際の応用において時間とともに変化することである。
論文 参考訳(メタデータ) (2024-05-08T09:28:26Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Multiagent Reinforcement Learning for Autonomous Routing and Pickup
Problem with Adaptation to Variable Demand [1.8505047763172104]
都市の地図に現れる要求に対処する自律走行車両群に対して、ルーティング/ピックポリシーを生成するための学習枠組みを導出する。
当社は、車両間の協調を促す政策に焦点を合わせ、要求の待ち時間を短縮する。
本稿では、現在の需要が元の妥当性領域外にある場合に、トレーニング済みのオフライン近似を切り替えるメカニズムを提案する。
論文 参考訳(メタデータ) (2022-11-28T01:11:11Z) - A Universal Error Measure for Input Predictions Applied to Online Graph
Problems [57.58926849872494]
本稿では,入力予測における誤差の定量化のための新しい尺度を提案する。
この尺度は、予測されていない要求と予測されていない実際の要求によるエラーをキャプチャする。
論文 参考訳(メタデータ) (2022-05-25T15:24:03Z) - Approaching sales forecasting using recurrent neural networks and
transformers [57.43518732385863]
深層学習技術を用いて,日・店・店レベルでの顧客販売予測問題に対処する3つの方法を開発した。
実験結果から,データ前処理を最小限に抑えた単純なシーケンスアーキテクチャを用いて,優れた性能を実現することができることを示す。
提案した解は約0.54の RMSLE を達成し、Kaggle コンペティションで提案された問題に対する他のより具体的な解と競合する。
論文 参考訳(メタデータ) (2022-04-16T12:03:52Z) - Learning a Discrete Set of Optimal Allocation Rules in a Queueing System
with Unknown Service Rate [1.4094389874355762]
入場率とサービス率の不明なシステムの入場制御について検討する。
私たちのモデルでは、ジョブが到着するたびに、ディスペンサーがジョブを利用可能なサーバに割り当てるか、ブロックするかを決めます。
我々の目標は、ディスパッチの長期平均報酬を最大化するディスパッチポリシーを設計することです。
論文 参考訳(メタデータ) (2022-02-04T22:39:03Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Offline Reinforcement Learning as Anti-Exploration [49.72457136766916]
我々は、新たなオフラインRLエージェントを設計するためのボーナスベースの探索に関する文献から着想を得た。
中心となるアイデアは、探索のために追加するのではなく、報酬から予測ベースの探査ボーナスを減じることだ。
我々のエージェントは、連続的な制御ロコモーションと操作タスクのセットにおいて、最先端技術と競合していることを示す。
論文 参考訳(メタデータ) (2021-06-11T14:41:30Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - Reinforcement Learning for Freight Booking Control Problems [5.08128537391027]
予約管理問題は、収益管理におけるシーケンシャルな意思決定問題である。
我々は,運用課題の目的を予測するために教師付き学習モデルを訓練する。
次に、制御ポリシを計算するために強化学習アルゴリズム内にモデルをデプロイする。
論文 参考訳(メタデータ) (2021-01-29T22:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。