論文の概要: A Deep Reinforcement Learning Approach for Constrained Online Logistics
Route Assignment
- arxiv url: http://arxiv.org/abs/2109.03467v1
- Date: Wed, 8 Sep 2021 07:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:58:58.363787
- Title: A Deep Reinforcement Learning Approach for Constrained Online Logistics
Route Assignment
- Title(参考訳): 制約付きオンラインロジスティクス経路割り当てのための深層強化学習手法
- Authors: Hao Zeng, Yangdong Liu, Dandan Zhang, Kunpeng Han, Haoyuan Hu
- Abstract要約: 物流業界にとって、各出荷区画に適切な物流ルートを割り当てる方法が不可欠である。
このオンライン経路割り当て問題は、制約付きオンライン意思決定問題とみなすことができる。
我々はPPO-RAと呼ばれるモデルフリーDRLアプローチを開発し、経路割当(RA)の課題に対処する専用の技術を用いてPPO(Pximal Policy Optimization)を改善した。
- 参考スコア(独自算出の注目度): 4.367543599338385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As online shopping prevails and e-commerce platforms emerge, there is a
tremendous number of parcels being transported every day. Thus, it is crucial
for the logistics industry on how to assign a candidate logistics route for
each shipping parcel properly as it leaves a significant impact on the total
logistics cost optimization and business constraints satisfaction such as
transit hub capacity and delivery proportion of delivery providers. This online
route-assignment problem can be viewed as a constrained online decision-making
problem. Notably, the large amount (beyond ${10^5}$) of daily parcels, the
variability and non-Markovian characteristics of parcel information impose
difficulties on attaining (near-) optimal solution without violating
constraints excessively. In this paper, we develop a model-free DRL approach
named PPO-RA, in which Proximal Policy Optimization (PPO) is improved with
dedicated techniques to address the challenges for route assignment (RA). The
actor and critic networks use attention mechanism and parameter sharing to
accommodate each incoming parcel with varying numbers and identities of
candidate routes, without modeling non-Markovian parcel arriving dynamics since
we make assumption of i.i.d. parcel arrival. We use recorded delivery parcel
data to evaluate the performance of PPO-RA by comparing it with widely-used
baselines via simulation. The results show the capability of the proposed
approach to achieve considerable cost savings while satisfying most
constraints.
- Abstract(参考訳): オンラインショッピングやeコマースのプラットフォームが普及するにつれ、毎日膨大な数の荷物が輸送されている。
したがって、物流産業にとって、運送小包毎に候補物流経路を適切に割り当てることが重要であり、輸送ハブ容量や配送業者の配送比率など、物流コストの最適化とビジネス制約の満足度に大きな影響を残している。
このオンライン経路割り当て問題は、制約付きオンライン意思決定問題と見なすことができる。
特に、毎日の小包の量(${10^5}$)、小包情報の変動性と非マルコフ的特性は、制約を過度に犯さずに(ほぼ)最適解を得るのに困難を伴っている。
本稿では、PPO-RAと呼ばれるモデルフリーDRL手法を開発し、経路割り当て(RA)の課題に対処する専用の技術を用いて、PPO(Proximal Policy Optimization)を改善した。
アクタと批評家ネットワークは注意機構とパラメータ共有を用いて、i.i.dの仮定から非マルコフ小包到着ダイナミクスをモデル化することなく、各入射小包の候補経路の数と同一性に応じて対応している。
パーセル到着
シミュレーションによりppo-raの性能を評価するために,ppo-raを広く使用されているベースラインと比較した。
その結果,多くの制約を満たしつつ,大幅なコスト削減を実現するための提案手法の有効性が示された。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Individually Rational Collaborative Vehicle Routing through
Give-And-Take Exchanges [4.266376725904727]
本稿では, 協調車両ルーティング問題(CVRP)に焦点をあて, 個別の合理性のレンズによる新しいマルチエージェント手法を提案する。
Give-and-Takeアプローチにより,競合するロジスティクスエージェント間の協力を促進することにより,旅行距離の削減とシステム全体の運用効率の向上が可能であることを示す。
論文 参考訳(メタデータ) (2023-08-31T07:18:37Z) - Optimization-based Learning for Dynamic Load Planning in Trucking
Service Networks [14.611528740102582]
本稿では,フロー計画と負荷計画の両課題を共同で検討する動的負荷計画問題(DLPP)について考察する。
本研究の目的は,ネットワーク上の端末で意思決定を行う計画立案者に対して,意思決定支援ツールを開発することである。
論文 参考訳(メタデータ) (2023-07-08T21:28:20Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Learning to Optimize Industry-Scale Dynamic Pickup and Delivery Problems [17.076557377480444]
動的ピックアップ・デリバリー問題 (DPDP) は、配送注文が事前に分かっていない場合のコストを最小限に抑えるため、複数のサイト間で車両を動的にスケジューリングすることを目的としている。
産業規模のDPDPを解決するために,データ駆動型空間時間支援ダブルグラフネットワーク(ST-DDGN)を提案する。
本手法は,ST-DDGNデータから隣接車両のリレーショナル表現を周期的に学習し,補正することが可能である。
論文 参考訳(メタデータ) (2021-05-27T01:16:00Z) - Dynamic Bicycle Dispatching of Dockless Public Bicycle-sharing Systems
using Multi-objective Reinforcement Learning [79.61517670541863]
ドッキングレスPBS(DL-PBS)に欠かせない動的自転車レンタル需要に基づく効率的な自転車配車ソリューションを実現するためのAIの活用
DL-PBSに最適な自転車ディスパッチソリューションを提供するために、マルチオブジェクト強化学習(MORL-BD)に基づく動的自転車ディスパッチアルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-01-19T03:09:51Z) - Mathematical simulation of package delivery optimization using a
combination of carriers [0.0]
著者らは、世界中のサプライヤーやローカルキャリアが配送する経路を組み合わせて、長距離配送のためのパッケージ配送のコスト最適化の問題を分析して提案した。
実験は、幅広いキャリアをデリバリーサービスに使用している米国企業のデータソースに基づいている。
論文 参考訳(メタデータ) (2020-11-02T18:44:04Z) - A Multi-Agent System for Solving the Dynamic Capacitated Vehicle Routing
Problem with Stochastic Customers using Trajectory Data Mining [0.0]
Eコマースはロジスティクス企業にとって新たな課題を生み出している。
本研究は、軌道データマイニング技術を用いて、領域パターンを抽出し、ラストマイル経路の動的生成に利用するマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2020-09-26T21:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。