論文の概要: Joint Matching and Pricing for Crowd-shipping with In-store Customers
- arxiv url: http://arxiv.org/abs/2507.01749v1
- Date: Wed, 02 Jul 2025 14:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.287154
- Title: Joint Matching and Pricing for Crowd-shipping with In-store Customers
- Title(参考訳): 店内顧客との複合マッチングと集客価格
- Authors: Arash Dehghan, Mucahit Cevik, Merve Bodur, Bissan Ghaddar,
- Abstract要約: 本稿では,集中型集客システムにおける配送クーラーとしての店内顧客の利用について検討する。
本稿では,注文の到着や群集船員の到着など,重要な不確実性を捉えるマルコフ決定プロセス(MDP)モデルを提案する。
統合されたNeurADP + DDQNポリシーは、配送コスト効率の顕著な改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 2.7950888004779064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines the use of in-store customers as delivery couriers in a centralized crowd-shipping system, targeting the growing need for efficient last-mile delivery in urban areas. We consider a brick-and-mortar retail setting where shoppers are offered compensation to deliver time-sensitive online orders. To manage this process, we propose a Markov Decision Process (MDP) model that captures key uncertainties, including the stochastic arrival of orders and crowd-shippers, and the probabilistic acceptance of delivery offers. Our solution approach integrates Neural Approximate Dynamic Programming (NeurADP) for adaptive order-to-shopper assignment with a Deep Double Q-Network (DDQN) for dynamic pricing. This joint optimization strategy enables multi-drop routing and accounts for offer acceptance uncertainty, aligning more closely with real-world operations. Experimental results demonstrate that the integrated NeurADP + DDQN policy achieves notable improvements in delivery cost efficiency, with up to 6.7\% savings over NeurADP with fixed pricing and approximately 18\% over myopic baselines. We also show that allowing flexible delivery delays and enabling multi-destination routing further reduces operational costs by 8\% and 17\%, respectively. These findings underscore the advantages of dynamic, forward-looking policies in crowd-shipping systems and offer practical guidance for urban logistics operators.
- Abstract(参考訳): 本稿では,都市部における効率的なラストマイル配送の必要性の高まりを目標として,集中型集客システムにおける店内顧客による宅配クーラーの利用について検討する。
私たちは、買い物客が時間に敏感なオンライン注文を提供するための報酬を提供する、ブロック・アンド・モルタルの小売環境を考えます。
このプロセスを管理するために,注文や集客の確率的到着,配送提案の確率論的受容など,重要な不確実性を捉えるマルコフ決定プロセス(MDP)モデルを提案する。
提案手法では,NeurADP(Neural Approximate Dynamic Programming)とDDQN(Deep Double Q-Network)を併用して動的価格設定を行う。
この共同最適化戦略により、マルチドロップルーティングが可能となり、現実の操作とより密に連携して、受け入れの不確実性を提供する。
実験結果から,NeurADP+DDQNポリシの統合は,NeurADPを最大6.7 %,固定価格で約18 %,ミオピックベースラインで最大6.7 %のコスト削減を実現していることがわかった。
また、フレキシブルな配送遅延を可能にし、マルチデスティネーションルーティングを可能にすることで、運用コストをそれぞれ8\%と17\%に削減できることも示している。
これらの知見は, 群集輸送システムにおけるダイナミックで前向きな政策の利点を浮き彫りにして, 都市物流事業者に実践的なガイダンスを提供するものである。
関連論文リスト
- Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - Process Reinforcement through Implicit Rewards [95.7442934212076]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。
ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。
これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。
提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文 参考訳(メタデータ) (2025-02-03T15:43:48Z) - Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - Dynamic Demand Management for Parcel Lockers [0.0]
本研究では,逐次決定分析と強化学習に根ざしたアルゴリズム手法を編成するソリューションフレームワークを開発する。
これらのテクニックを組み合わせるための革新的なアプローチは、この2つの意思決定タイプ間の強い相互関係に対処する上で有効です。
本手法は筋電図のベンチマークを13.7%上回り、業界に触発された政策を12.6%上回る結果となった。
論文 参考訳(メタデータ) (2024-09-08T11:38:48Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Learning Dynamic Selection and Pricing of Out-of-Home Deliveries [1.2289361708127877]
本稿では、畳み込みニューラルネットワークへの入力として、新しい時空間状態符号化を用いたアルゴリズムパイプラインであるOOH(DSPO)の動的選択と価格設定を提案する。
実世界のデータによって導かれた我々の広範な数値研究により、DSPOはOOH位置のない状況と比較して19.9%のコストを節約できることが明らかとなった。
我々は、OOHデリバリーのダイナミクスと価格戦略に影響された顧客の行動の間の複雑な相互作用に関する総合的な洞察を提供する。
論文 参考訳(メタデータ) (2023-11-23T12:55:10Z) - No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand
Distribution [48.27759561064771]
我々は[Cachon and Zipkin, 1999]で導入された2つのエケロンサプライチェーンモデルについて, 2つの異なる設定で検討する。
両設定の最適在庫決定に対する後悔と収束の両面において良好な保証を達成するアルゴリズムを設計する。
私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。
論文 参考訳(メタデータ) (2022-10-23T08:45:39Z) - PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation [89.0074567748505]
即時転送可能性(i)を正確に予測する新しい指標と,新しいPoTアプローチ(PANDA)を提案する。
提案手法は,各タスクおよびモデルサイズの平均スコアの2.3%(最大24.1%)でバニラPoTアプローチを一貫して上回り,その3。
論文 参考訳(メタデータ) (2022-08-22T09:14:14Z) - A Deep Reinforcement Learning Approach for Constrained Online Logistics
Route Assignment [4.367543599338385]
物流業界にとって、各出荷区画に適切な物流ルートを割り当てる方法が不可欠である。
このオンライン経路割り当て問題は、制約付きオンライン意思決定問題とみなすことができる。
我々はPPO-RAと呼ばれるモデルフリーDRLアプローチを開発し、経路割当(RA)の課題に対処する専用の技術を用いてPPO(Pximal Policy Optimization)を改善した。
論文 参考訳(メタデータ) (2021-09-08T07:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。