論文の概要: Dynamic Demand Management for Parcel Lockers
- arxiv url: http://arxiv.org/abs/2409.05061v2
- Date: Thu, 12 Sep 2024 08:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 13:20:50.107190
- Title: Dynamic Demand Management for Parcel Lockers
- Title(参考訳): パーセルロッカーの動的需要管理
- Authors: Daniela Sailer, Robert Klein, Claudius Steinhardt,
- Abstract要約: 本研究では,逐次決定分析と強化学習に根ざしたアルゴリズム手法を編成するソリューションフレームワークを開発する。
これらのテクニックを組み合わせるための革新的なアプローチは、この2つの意思決定タイプ間の強い相互関係に対処する上で有効です。
本手法は筋電図のベンチマークを13.7%上回り、業界に触発された政策を12.6%上回る結果となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In pursuit of a more sustainable and cost-efficient last mile, parcel lockers have gained a firm foothold in the parcel delivery landscape. To fully exploit their potential and simultaneously ensure customer satisfaction, successful management of the locker's limited capacity is crucial. This is challenging as future delivery requests and pickup times are stochastic from the provider's perspective. In response, we propose to dynamically control whether the locker is presented as an available delivery option to each incoming customer with the goal of maximizing the number of served requests weighted by their priority. Additionally, we take different compartment sizes into account, which entails a second type of decision as parcels scheduled for delivery must be allocated. We formalize the problem as an infinite-horizon sequential decision problem and find that exact methods are intractable due to the curses of dimensionality. In light of this, we develop a solution framework that orchestrates multiple algorithmic techniques rooted in Sequential Decision Analytics and Reinforcement Learning, namely cost function approximation and an offline trained parametric value function approximation together with a truncated online rollout. Our innovative approach to combine these techniques enables us to address the strong interrelations between the two decision types. As a general methodological contribution, we enhance the training of our value function approximation with a modified version of experience replay that enforces structure in the value function. Our computational study shows that our method outperforms a myopic benchmark by 13.7% and an industry-inspired policy by 12.6%.
- Abstract(参考訳): より持続的で費用効率のよいラストマイルを追求する中で、パーセルロッカーは、パーセル配達の現場で確固たる足場を築き上げてきた。
その可能性を完全に活用し、同時に顧客満足度を確保するために、ロッカーの限られた容量の管理を成功させることが不可欠である。
将来のデリバリ要求とピックアップ時間がプロバイダの観点から確率的であるため、これは難しいことです。
そこで本研究では,プライオリティによって重み付けされたサービス要求数の最大化を目標として,受信した顧客に対して,ロッカーが利用可能な配送オプションとして提供されるかどうかを動的に制御することを提案する。
さらに、デリバリに予定されるパーセルを割り当てる必要があるため、第2のタイプの決定を必要とする、さまざまなコンパートメントサイズを考慮に入れています。
この問題を無限水平逐次決定問題として定式化し、次元の呪いによって正確な方法が難解であることが見いだされる。
そこで我々は,逐次決定分析と強化学習に根ざした複数のアルゴリズム手法,すなわちコスト関数近似とオフラインで訓練されたパラメトリック値関数近似を,オンラインロールアウトと合わせて編成するソリューションフレームワークを開発した。
これらのテクニックを組み合わせるための革新的なアプローチは、この2つの意思決定タイプ間の強い相互関係に対処する上で有効です。
一般的な方法論的貢献として、我々は値関数の構造を強制する経験リプレイの修正版を用いて、値関数近似のトレーニングを強化する。
本手法は筋電図のベンチマークを13.7%上回り、業界に触発された政策を12.6%上回る結果となった。
関連論文リスト
- Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment [15.273192037219077]
不整合決定周波数下での動的価格設定と補充問題について検討する。
我々は、包括的な市場データに基づいてトレーニングされた決定木に基づく機械学習アプローチを統合する。
このアプローチでは、2つのエージェントが価格と在庫を処理し、さまざまなスケールで更新される。
論文 参考訳(メタデータ) (2024-10-28T15:12:04Z) - Scalarisation-based risk concepts for robust multi-objective optimisation [4.12484724941528]
この問題の多目的事例について検討する。
我々は、ロバストな多目的アルゴリズムの大多数が、ロバスト化とスカラー化という2つの重要な操作に依存していることを確認した。
これらの操作は必ずしも可換であるとは限らないので、それらが実行される順序は結果の解に影響を及ぼす。
論文 参考訳(メタデータ) (2024-05-16T16:11:00Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Off-line approximate dynamic programming for the vehicle routing problem
with stochastic customers and demands via decentralized decision-making [0.0]
本稿では,顧客の位置と需要が不確実な車両経路問題(VRP)の変種について検討する。
目的は、車両の容量と時間制限を満たしながら、提供された要求を最大化することである。
本稿では,Replay MemoryやDouble Q Networkといった最先端のアクセラレーション技術を用いたQラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-21T14:28:09Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Solving the Order Batching and Sequencing Problem using Deep
Reinforcement Learning [2.4565068569913384]
本稿では,注文数を最小限に抑えるため,倉庫内で注文のバッチ化と選択のタイミングを決定するために,Deep Reinforcement Learning (DRL) アプローチを提案する。
特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、または、他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかを判断することを容易にする。
論文 参考訳(メタデータ) (2020-06-16T20:40:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。