論文の概要: Heterogeneous Attentions for Solving Pickup and Delivery Problem via
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.02634v1
- Date: Wed, 6 Oct 2021 10:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:19:36.095456
- Title: Heterogeneous Attentions for Solving Pickup and Delivery Problem via
Deep Reinforcement Learning
- Title(参考訳): 深層強化学習によるピックアップ・デリバリー問題を解決するための異種注意
- Authors: Jingwen Li, Liang Xin, Zhiguang Cao, Andrew Lim, Wen Song, Jie Zhang
- Abstract要約: 我々は、ノードを自動的に選択する深層強化学習におけるポリシーを強化するために、異種注意機構と統合された新しいニューラルネットワークを活用する。
特に、不均一な注意機構は、優先制約を考慮してノードの役割ごとに注意を規定する。
提案手法は,最先端および深層学習モデルより優れ,各分布と問題サイズによく対応している。
- 参考スコア(独自算出の注目度): 14.627657852087994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there is an emerging trend to apply deep reinforcement learning to
solve the vehicle routing problem (VRP), where a learnt policy governs the
selection of next node for visiting. However, existing methods could not handle
well the pairing and precedence relationships in the pickup and delivery
problem (PDP), which is a representative variant of VRP. To address this
challenging issue, we leverage a novel neural network integrated with a
heterogeneous attention mechanism to empower the policy in deep reinforcement
learning to automatically select the nodes. In particular, the heterogeneous
attention mechanism specifically prescribes attentions for each role of the
nodes while taking into account the precedence constraint, i.e., the pickup
node must precede the pairing delivery node. Further integrated with a masking
scheme, the learnt policy is expected to find higher-quality solutions for
solving PDP. Extensive experimental results show that our method outperforms
the state-of-the-art heuristic and deep learning model, respectively, and
generalizes well to different distributions and problem sizes.
- Abstract(参考訳): 近年,車両経路問題(vrp)に深層強化学習を適用し,学習方針が来訪ノードの選択を規定するトレンドが浮上している。
しかし,vrpの代表的な変種であるピックアップ・アンド・デリバリー問題(pdp)では,既存の手法ではペアリングと優先関係をうまく扱えなかった。
この課題に対処するために,我々は,異種注意機構と統合した新しいニューラルネットワークを用いて,深層強化学習におけるポリシーの強化とノードの自動選択を行う。
特に、不均質な注意機構は、優先制約、すなわち、ピックアップノードがペアリング配信ノードを先取りしなければならないことを考慮しながら、ノードの役割毎の注意を特別に規定する。
さらにマスキング手法と統合し,PDPを解くための高品質な解を見つけることが期待される。
実験結果から,本手法は最先端のヒューリスティックモデルと深層学習モデルより優れ,各分布や問題サイズによく対応していることがわかった。
関連論文リスト
- Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - GASE: Graph Attention Sampling with Edges Fusion for Solving Vehicle Routing Problems [6.084414764415137]
車両のルーティング問題を解決するためにEdges Fusionフレームワークを用いた適応型グラフ注意サンプリングを提案する。
提案手法は,既存の手法を2.08%-6.23%上回り,より強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-21T03:33:07Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Towards Generalizable Neural Solvers for Vehicle Routing Problems via Ensemble with Transferrable Local Policy [24.91781032046481]
車両ルーティング問題(VRP)のための多くのニューラルネットワーク構築手法は、特定のノード分布と限られたスケールを持つ合成問題インスタンスに焦点を当てている。
我々は,局所移動可能な局所的特徴から学習する補助的政策を設計し,それを典型的な建設方針と統合し,アンサンブル政策を形成する。
共同トレーニングでは、集約されたポリシが協調的かつ補完的に実行され、一般化が促進される。
論文 参考訳(メタデータ) (2023-08-27T13:22:50Z) - Solving the Traveling Salesperson Problem with Precedence Constraints by
Deep Reinforcement Learning [59.14935871979047]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。
これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文 参考訳(メタデータ) (2022-07-04T14:31:47Z) - Multivariate Deep Evidential Regression [77.34726150561087]
不確実性を認識するニューラルネットワークによる新しいアプローチは、従来の決定論的手法よりも有望である。
本稿では,レグレッションベースニューラルネットワークからアレータ性およびてんかん性不確かさを抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:20:18Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Reachability Analysis for Feed-Forward Neural Networks using Face
Lattices [10.838397735788245]
本稿では,ニューラルネットワークの正確な到達可能な集合を入力集合に並列化する手法を提案する。
我々の手法は、出力セットが与えられた完全な入力セットを構築することができ、安全違反につながる任意の入力を追跡することができる。
論文 参考訳(メタデータ) (2020-03-02T22:23:57Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。