論文の概要: Multi-Vehicle Routing Problems with Soft Time Windows: A Multi-Agent
Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2002.05513v2
- Date: Tue, 27 Oct 2020 09:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 13:22:40.351153
- Title: Multi-Vehicle Routing Problems with Soft Time Windows: A Multi-Agent
Reinforcement Learning Approach
- Title(参考訳): ソフトタイムウインドウを用いたマルチ車両ルーティング問題--マルチエージェント強化学習アプローチ
- Authors: Ke Zhang, Meng Li, Zhengchao Zhang, Xi Lin, Fang He
- Abstract要約: ソフトタイムウインドウ(MVRPSTW)を用いたマルチ車両ルーティング問題は、都市ロジスティクスシステムにおいて不可欠である。
従来の手法は計算効率と解の質のジレンマを引き起こす。
そこで本研究では,ルーティング問題の解決に要する時間的オフライントレーニングのメリットを即時評価する,Multi-Agent Attention Modelと呼ばれる新しい強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.717648122961483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-vehicle routing problem with soft time windows (MVRPSTW) is an
indispensable constituent in urban logistics distribution systems. Over the
past decade, numerous methods for MVRPSTW have been proposed, but most are
based on heuristic rules that require a large amount of computation time. With
the current rapid increase of logistics demands, traditional methods incur the
dilemma between computational efficiency and solution quality. To efficiently
solve the problem, we propose a novel reinforcement learning algorithm called
the Multi-Agent Attention Model that can solve routing problem instantly
benefit from lengthy offline training. Specifically, the vehicle routing
problem is regarded as a vehicle tour generation process, and an
encoder-decoder framework with attention layers is proposed to generate tours
of multiple vehicles iteratively. Furthermore, a multi-agent reinforcement
learning method with an unsupervised auxiliary network is developed for the
model training. By evaluated on four synthetic networks with different scales,
the results demonstrate that the proposed method consistently outperforms
Google OR-Tools and traditional methods with little computation time. In
addition, we validate the robustness of the well-trained model by varying the
number of customers and the capacities of vehicles.
- Abstract(参考訳): ソフトタイムウインドウ(mvrpstw)を用いた多車両経路問題は,都市物流流通システムにおいて不可欠である。
過去10年間に多くのMVRPSTWの手法が提案されてきたが、その多くは大量の計算時間を必要とするヒューリスティックなルールに基づいている。
現在のロジスティクス需要の増加に伴い、従来の手法は計算効率とソリューションの品質のジレンマを引き起こしている。
この問題を効率的に解くために,マルチエージェントアテンションモデル (multi-agent attention model) と呼ばれる新しい強化学習アルゴリズムを提案する。
具体的には,車両走行経路問題を車両走行経路生成プロセスと見なすとともに,注意層を有するエンコーダ・デコーダフレームワークを提案し,複数車両の走行経路を反復的に生成する。
さらに,モデルトレーニングのために,教師なし補助ネットワークを用いたマルチエージェント強化学習手法を開発した。
その結果,提案手法はGoogle OR-Toolsや従来の手法よりも計算時間が少なく,一貫した性能を発揮することがわかった。
さらに、顧客数や車両の容量を変化させることで、訓練されたモデルの堅牢性を検証する。
関連論文リスト
- A Reinforcement Learning Approach for Dynamic Rebalancing in
Bike-Sharing System [11.237099288412558]
自転車シェアリングシステムはエコフレンドリーな都市移動を提供し、交通渋滞と健康的な生活様式の緩和に貢献している。
駅間で自転車を再分配するための車両を用いた効果的な再バランス戦略の開発は、オペレーターにとって非常に重要である。
本稿では,複数の車両との動的再バランス問題に対する時間的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-05T23:46:42Z) - Roulette-Wheel Selection-Based PSO Algorithm for Solving the Vehicle
Routing Problem with Time Windows [58.891409372784516]
本稿では,Roulette Wheel Method (RWPSO) を用いた新しいPSO手法を提案する。
RWPSOのSolomon VRPTWベンチマークデータセットを用いた実験は、RWPSOが文学の他の最先端アルゴリズムと競合していることを示している。
論文 参考訳(メタデータ) (2023-06-04T09:18:02Z) - Traj-MAE: Masked Autoencoders for Trajectory Prediction [69.7885837428344]
軌道予測は、危険を予測して信頼性の高い自動運転システムを構築する上で重要な課題である。
本稿では,運転環境におけるエージェントの複雑な動作をよりよく表現する,軌道予測のための効率的なマスク付きオートエンコーダを提案する。
複数エージェント設定と単一エージェント設定の両方の実験結果から,Traj-MAEが最先端手法と競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-03-12T16:23:27Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - A deep learning Attention model to solve the Vehicle Routing Problem and
the Pick-up and Delivery Problem with Time Windows [0.0]
フランスの公共列車会社SNCFは、車両のルーティング問題に対処して、新しいタイプの交通サービスを開発する実験を行っている。
我々は,CPDPTWの実現可能性チェックのために,アテンション・デコーダ構造を用いて新しい挿入を設計する。
我々のモデルは、CVRPTWでよく知られた学習ソリューションよりも優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-12-20T16:25:55Z) - Solving the capacitated vehicle routing problem with timing windows
using rollouts and MAX-SAT [4.873362301533824]
車両ルーティングはNPハード最適化問題のよく知られたクラスである。
最近の強化学習の取り組みは有望な代替手段である。
本稿では,強化学習,政策展開,満足度を組み合わせたハイブリッドアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-14T06:27:09Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Combining Reinforcement Learning and Optimal Transport for the Traveling
Salesman Problem [18.735056206844202]
我々は,従来の自己回帰的アプローチよりもはるかに高速に,監督や推論なしに学習できるモデルを構築することができることを示す。
また、ディープラーニングモデルに最適なトランスポートアルゴリズムを組み込むことで、エンドツーエンドのトレーニング中に割り当て制約を強制する利点を実証的に評価する。
論文 参考訳(メタデータ) (2022-03-02T07:21:56Z) - Supervised Permutation Invariant Networks for Solving the CVRP with
Bounded Fleet Size [3.5235974685889397]
車両ルーティング問題などの最適化問題を解くための学習は、大きな計算上の利点をもたらす。
本研究では,アプリオリ固定数の車両を尊重しながら,スクラッチから完全なツアー計画を構築する強力な教師付きディープラーニングフレームワークを提案する。
効率的な後処理方式と組み合わせることで,教師付きアプローチはより高速かつ容易にトレーニングできるだけでなく,競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-01-05T10:32:18Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。