Fugu-MT 論文翻訳(概要): A Deep Reinforcement Learning Approach for Constrained Online Logistics Route Assignment

論文の概要: A Deep Reinforcement Learning Approach for Constrained Online Logistics Route Assignment

arxiv url: http://arxiv.org/abs/2109.03467v1
Date: Wed, 8 Sep 2021 07:27:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-09 13:58:58.363787
Title: A Deep Reinforcement Learning Approach for Constrained Online Logistics Route Assignment
Title（参考訳）: 制約付きオンラインロジスティクス経路割り当てのための深層強化学習手法
Authors: Hao Zeng, Yangdong Liu, Dandan Zhang, Kunpeng Han, Haoyuan Hu
Abstract要約: 物流業界にとって、各出荷区画に適切な物流ルートを割り当てる方法が不可欠である。このオンライン経路割り当て問題は、制約付きオンライン意思決定問題とみなすことができる。我々はPPO-RAと呼ばれるモデルフリーDRLアプローチを開発し、経路割当(RA)の課題に対処する専用の技術を用いてPPO(Pximal Policy Optimization)を改善した。
参考スコア（独自算出の注目度）: 4.367543599338385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As online shopping prevails and e-commerce platforms emerge, there is a tremendous number of parcels being transported every day. Thus, it is crucial for the logistics industry on how to assign a candidate logistics route for each shipping parcel properly as it leaves a significant impact on the total logistics cost optimization and business constraints satisfaction such as transit hub capacity and delivery proportion of delivery providers. This online route-assignment problem can be viewed as a constrained online decision-making problem. Notably, the large amount (beyond ${10^5}$) of daily parcels, the variability and non-Markovian characteristics of parcel information impose difficulties on attaining (near-) optimal solution without violating constraints excessively. In this paper, we develop a model-free DRL approach named PPO-RA, in which Proximal Policy Optimization (PPO) is improved with dedicated techniques to address the challenges for route assignment (RA). The actor and critic networks use attention mechanism and parameter sharing to accommodate each incoming parcel with varying numbers and identities of candidate routes, without modeling non-Markovian parcel arriving dynamics since we make assumption of i.i.d. parcel arrival. We use recorded delivery parcel data to evaluate the performance of PPO-RA by comparing it with widely-used baselines via simulation. The results show the capability of the proposed approach to achieve considerable cost savings while satisfying most constraints.
Abstract（参考訳）: オンラインショッピングやeコマースのプラットフォームが普及するにつれ、毎日膨大な数の荷物が輸送されている。したがって、物流産業にとって、運送小包毎に候補物流経路を適切に割り当てることが重要であり、輸送ハブ容量や配送業者の配送比率など、物流コストの最適化とビジネス制約の満足度に大きな影響を残している。このオンライン経路割り当て問題は、制約付きオンライン意思決定問題と見なすことができる。特に、毎日の小包の量(${10^5}$)、小包情報の変動性と非マルコフ的特性は、制約を過度に犯さずに(ほぼ)最適解を得るのに困難を伴っている。本稿では、PPO-RAと呼ばれるモデルフリーDRL手法を開発し、経路割り当て(RA)の課題に対処する専用の技術を用いて、PPO(Proximal Policy Optimization)を改善した。アクタと批評家ネットワークは注意機構とパラメータ共有を用いて、i.i.dの仮定から非マルコフ小包到着ダイナミクスをモデル化することなく、各入射小包の候補経路の数と同一性に応じて対応している。パーセル到着シミュレーションによりppo-raの性能を評価するために,ppo-raを広く使用されているベースラインと比較した。その結果,多くの制約を満たしつつ,大幅なコスト削減を実現するための提案手法の有効性が示された。

関連論文リスト

Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文参考訳（メタデータ） (2025-10-08T18:24:59Z)
Learning to Estimate Package Delivery Time in Mixed Imbalanced Delivery and Pickup Logistics Services [12.270567592483888]
トランスフォーマーベースのマルチタスクパッケージ配信時間予測モデルであるTransPDTを提案する。 TransPDTをベースとしたシステムはJD Logisticsの内部に展開され、北京で毎日数十万のパッケージを扱う2000以上の宅配業者を追跡している。
論文参考訳（メタデータ） (2025-05-01T08:00:22Z)
Deliberate Planning of 3D Bin Packing on Packing Configuration Trees [65.05353662124676]
オンライン3D Bin Packing Problem (3D-BPP) は産業自動化に広く応用されている。我々は,新しい階層表現,パッキング構成木(PCT)の学習を通じて,オンライン3D-BPPの実用性を高めることを提案する。 PCTは、ディープ強化学習(DRL)に基づくパッキングポリシー学習を支援するビンパッキングの状況と行動空間について、本格的な記述である。
論文参考訳（メタデータ） (2025-04-06T09:07:10Z)
A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文参考訳（メタデータ） (2024-07-08T09:55:31Z)
Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。メタラーニング戦略を導入することで、大規模なTPPインスタンス上で安定してポリシーネットワークをトレーニングすることができる。
論文参考訳（メタデータ） (2024-04-03T05:32:10Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
Individually Rational Collaborative Vehicle Routing through Give-And-Take Exchanges [4.266376725904727]
本稿では, 協調車両ルーティング問題(CVRP)に焦点をあて, 個別の合理性のレンズによる新しいマルチエージェント手法を提案する。 Give-and-Takeアプローチにより,競合するロジスティクスエージェント間の協力を促進することにより,旅行距離の削減とシステム全体の運用効率の向上が可能であることを示す。
論文参考訳（メタデータ） (2023-08-31T07:18:37Z)
AI-aided Traffic Control Scheme for M2M Communications in the Internet of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文参考訳（メタデータ） (2022-03-05T10:54:05Z)
Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文参考訳（メタデータ） (2021-11-29T06:29:49Z)
Learning to Optimize Industry-Scale Dynamic Pickup and Delivery Problems [17.076557377480444]
動的ピックアップ・デリバリー問題 (DPDP) は、配送注文が事前に分かっていない場合のコストを最小限に抑えるため、複数のサイト間で車両を動的にスケジューリングすることを目的としている。産業規模のDPDPを解決するために,データ駆動型空間時間支援ダブルグラフネットワーク(ST-DDGN)を提案する。本手法は,ST-DDGNデータから隣接車両のリレーショナル表現を周期的に学習し,補正することが可能である。
論文参考訳（メタデータ） (2021-05-27T01:16:00Z)
Dynamic Bicycle Dispatching of Dockless Public Bicycle-sharing Systems using Multi-objective Reinforcement Learning [79.61517670541863]
ドッキングレスPBS(DL-PBS)に欠かせない動的自転車レンタル需要に基づく効率的な自転車配車ソリューションを実現するためのAIの活用 DL-PBSに最適な自転車ディスパッチソリューションを提供するために、マルチオブジェクト強化学習(MORL-BD)に基づく動的自転車ディスパッチアルゴリズムを提案します。
論文参考訳（メタデータ） (2021-01-19T03:09:51Z)
Mathematical simulation of package delivery optimization using a combination of carriers [0.0]
著者らは、世界中のサプライヤーやローカルキャリアが配送する経路を組み合わせて、長距離配送のためのパッケージ配送のコスト最適化の問題を分析して提案した。実験は、幅広いキャリアをデリバリーサービスに使用している米国企業のデータソースに基づいている。
論文参考訳（メタデータ） (2020-11-02T18:44:04Z)
A Multi-Agent System for Solving the Dynamic Capacitated Vehicle Routing Problem with Stochastic Customers using Trajectory Data Mining [0.0]
Eコマースはロジスティクス企業にとって新たな課題を生み出している。本研究は、軌道データマイニング技術を用いて、領域パターンを抽出し、ラストマイル経路の動的生成に利用するマルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2020-09-26T21:36:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。