論文の概要: Cluster-Aware Attention-Based Deep Reinforcement Learning for Pickup and Delivery Problems
- arxiv url: http://arxiv.org/abs/2603.10053v1
- Date: Mon, 09 Mar 2026 17:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.596903
- Title: Cluster-Aware Attention-Based Deep Reinforcement Learning for Pickup and Delivery Problems
- Title(参考訳): クラスタ・アウェア・アテンションに基づく深い強化学習によるピックアップ・デリバリー問題
- Authors: Wentao Wang, Lifeng Han, Guangyu Zou,
- Abstract要約: emphCAADRL (Cluster-Aware Attention-based Deep Reinforcement Learning)は、PDPインスタンスのマルチスケール構造を利用するDRLフレームワークである。
提案手法は, ニューラルネットワークを用いた探索ベースラインよりも, 推論時間を大幅に短縮する。
- 参考スコア(独自算出の注目度): 6.977990610183958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Pickup and Delivery Problem (PDP) is a fundamental and challenging variant of the Vehicle Routing Problem, characterized by tightly coupled pickup--delivery pairs, precedence constraints, and spatial layouts that often exhibit clustering. Existing deep reinforcement learning (DRL) approaches either model all nodes on a flat graph, relying on implicit learning to enforce constraints, or achieve strong performance through inference-time collaborative search at the cost of substantial latency. In this paper, we propose \emph{CAADRL} (Cluster-Aware Attention-based Deep Reinforcement Learning), a DRL framework that explicitly exploits the multi-scale structure of PDP instances via cluster-aware encoding and hierarchical decoding. The encoder builds on a Transformer and combines global self-attention with intra-cluster attention over depot, pickup, and delivery nodes, producing embeddings that are both globally informative and locally role-aware. Based on these embeddings, we introduce a Dynamic Dual-Decoder with a learnable gate that balances intra-cluster routing and inter-cluster transitions at each step. The policy is trained end-to-end with a POMO-style policy gradient scheme using multiple symmetric rollouts per instance. Experiments on synthetic clustered and uniform PDP benchmarks show that CAADRL matches or improves upon strong state-of-the-art baselines on clustered instances and remains highly competitive on uniform instances, particularly as problem size increases. Crucially, our method achieves these results with substantially lower inference time than neural collaborative-search baselines, suggesting that explicitly modeling cluster structure provides an effective and efficient inductive bias for neural PDP solvers.
- Abstract(参考訳): ピックアップ・アンド・デリバリー問題(英: Pickup and Delivery Problem、PDP)は、密結合されたピックアップ・デリバリ・ペア、優先制約、クラスタリングをしばしば示す空間レイアウトを特徴とする、車両ルーティング問題の基本的で挑戦的な変種である。
既存の強化学習(DRL)は、フラットグラフ上のすべてのノードをモデル化し、制約を強制するために暗黙の学習に依存するか、あるいは相当なレイテンシを犠牲にして推論時協調検索によって強力なパフォーマンスを達成する。
本稿では,クラスタ・アウェア・エンコーディングと階層的デコーディングによってPDPインスタンスのマルチスケール構造を明示的に活用するDRLフレームワークであるemph{CAADRL(Cluster-Aware Attention-based Deep Reinforcement Learning)を提案する。
エンコーダはTransformer上に構築され、グローバルな自己アテンションと、デポ、ピックアップ、デリバリノードに対するクラスタ内アテンションを組み合わせることで、グローバルな情報的かつローカルなロールアウェアである埋め込みを生成する。
これらの埋め込みに基づいて、各ステップでクラスタ内ルーティングとクラスタ間遷移のバランスをとる学習可能なゲートを備えたDynamic Dual-Decoderを導入する。
ポリシーは、インスタンス毎に複数の対称ロールアウトを使用して、POMOスタイルのポリシー勾配スキームでエンドツーエンドにトレーニングされる。
合成クラスタ化および均一PDPベンチマークの実験により、CAADRLはクラスタ化インスタンス上で強い最先端のベースラインと一致または改善し、特に問題サイズが増加するにつれて、統一インスタンス上で高い競争力を維持することが示されている。
本手法は, クラスタ構造を明示的にモデル化することにより, ニューラルネットワークのPDP解法に有効かつ効率的な帰納的バイアスをもたらすことが示唆された。
関連論文リスト
- You Can Trust Your Clustering Model: A Parameter-free Self-Boosting Plug-in for Deep Clustering [73.48306836608124]
DCBoostはパラメータフリーのプラグインで、現在のディープクラスタリングモデルのグローバルな特徴構造を強化するように設計されている。
本手法は, クラスタリング性能を効果的に向上することを目的としている。
論文 参考訳(メタデータ) (2025-11-26T09:16:36Z) - An End-to-End Deep Reinforcement Learning Approach for Solving the Traveling Salesman Problem with Drones [12.385878815004283]
本研究では、ドローンによるトラベリングセールスマン問題(TSP-D)を解決するための階層的アクター・クリティカル深部強化学習フレームワークを提案する。
アーキテクチャは、Transformerにインスパイアされたエンコーダと、効率の良いMinimal Gated Unitデコーダの2つの主要な計算で構成されている。
フレームワーク全体が非同期のアドバンテージアクター-クリティカルパラダイム内で動作します。
論文 参考訳(メタデータ) (2025-11-07T14:26:29Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - GASE: Graph Attention Sampling with Edges Fusion for Solving Vehicle Routing Problems [6.084414764415137]
車両のルーティング問題を解決するためにEdges Fusionフレームワークを用いた適応型グラフ注意サンプリングを提案する。
提案手法は,既存の手法を2.08%-6.23%上回り,より強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-21T03:33:07Z) - Towards Lightweight Cross-domain Sequential Recommendation via External
Attention-enhanced Graph Convolution Network [7.1102362215550725]
クロスドメインシークエンシャルレコメンデーション(CSR)は、複数のドメインからのインタラクションをモデル化することで、重複したユーザの振る舞いパターンの進化を描いている。
上記の課題,すなわちLEA-GCNを解決するために,軽量な外部注意強化GCNベースのフレームワークを導入する。
フレームワークの構造をさらに緩和し、ユーザ固有のシーケンシャルパターンを集約するために、新しい二重チャネル外部注意(EA)コンポーネントを考案する。
論文 参考訳(メタデータ) (2023-02-07T03:06:29Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Deep clustering with fusion autoencoder [0.0]
ディープクラスタリング(DC)モデルは、オートエンコーダを利用して、結果としてクラスタリングプロセスを促進する固有の特徴を学ぶ。
本稿では、この問題に対処するための新しいDC法を提案し、特に、生成逆数ネットワークとVAEを融合オートエンコーダ(FAE)と呼ばれる新しいオートエンコーダに結合する。
論文 参考訳(メタデータ) (2022-01-11T07:38:03Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。