論文の概要: Learning to Search for Vehicle Routing with Multiple Time Windows
- arxiv url: http://arxiv.org/abs/2505.23098v1
- Date: Thu, 29 May 2025 05:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.686228
- Title: Learning to Search for Vehicle Routing with Multiple Time Windows
- Title(参考訳): 複数時間Windowsを用いた車両ルーティングの学習
- Authors: Kuan Xu, Zhiguang Cao, Chenlong Zheng, Linong Liu,
- Abstract要約: 強化学習に基づく適応型可変近傍探索(RL-AVNS)を提案する。
提案手法は,実時間解状態と学習経験に基づいて局所演算子を動的に選択するための強化学習フレームワークを統合する。
- 参考スコア(独自算出の注目度): 13.91760960564074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we propose a reinforcement learning-based adaptive variable neighborhood search (RL-AVNS) method designed for effectively solving the Vehicle Routing Problem with Multiple Time Windows (VRPMTW). Unlike traditional adaptive approaches that rely solely on historical operator performance, our method integrates a reinforcement learning framework to dynamically select neighborhood operators based on real-time solution states and learned experience. We introduce a fitness metric that quantifies customers' temporal flexibility to improve the shaking phase, and employ a transformer-based neural policy network to intelligently guide operator selection during the local search. Extensive computational experiments are conducted on realistic scenarios derived from the replenishment of unmanned vending machines, characterized by multiple clustered replenishment windows. Results demonstrate that RL-AVNS significantly outperforms traditional variable neighborhood search (VNS), adaptive VNS (AVNS), and state-of-the-art learning-based heuristics, achieving substantial improvements in solution quality and computational efficiency across various instance scales and time window complexities. Particularly notable is the algorithm's capability to generalize effectively to problem instances not encountered during training, underscoring its practical utility for complex logistics scenarios.
- Abstract(参考訳): 本研究では,複数時間Windows(VRPMTW)を用いた車両ルーティング問題を効果的に解くために,強化学習に基づく適応変数近傍探索(RL-AVNS)手法を提案する。
歴史的演算子の性能にのみ依存する従来の適応的手法とは異なり,本手法は実時間解状態と学習経験に基づいて局所演算子を動的に選択するための強化学習フレームワークを統合する。
本研究では,ゆらぎ位相を改善するためにユーザの時間的柔軟性を定量化する適合度指標を導入し,局所探索中に操作者の選択をインテリジェントに導くためにトランスフォーマーベースのニューラルポリシーネットワークを利用する。
大規模な計算実験は、複数のクラスタ化された補充窓によって特徴づけられる無人自動販売機の補充から導かれる現実的なシナリオに基づいて行われる。
その結果、RL-AVNSは従来の可変近傍探索(VNS)、適応的VNS(AVNS)、最先端の学習ベースヒューリスティックスを大きく上回り、様々なインスタンススケールや時間ウィンドウの複雑さに対して、解の質と計算効率を大幅に向上させることを示した。
特に注目すべきは、訓練中に遭遇しない問題インスタンスを効果的に一般化するアルゴリズムの能力であり、複雑な物流シナリオに対する実用性を強調している。
関連論文リスト
- Accelerating Vehicle Routing via AI-Initialized Genetic Algorithms [55.78505925402658]
車両ルーティング問題(VRP)は、トラベリングセールスパーソン問題の延長であり、進化的最適化における基本的なNPハードチャレンジである。
遺伝的アルゴリズムによってさらに最適化された初期解を迅速に生成するために、強化学習エージェント(事前インスタンスで訓練された)を使用した新しい最適化フレームワークを導入する。
例えば、EARLIは1秒以内に500カ所の車両ルーティングを処理し、同じソリューション品質の現在のソルバよりも10倍高速で、リアルタイムやインタラクティブなルーティングのようなアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-04-08T15:21:01Z) - Task Offloading in Vehicular Edge Computing using Deep Reinforcement Learning: A Survey [9.21746609806009]
適応的,リアルタイムな意思決定を通じて計算オフロードを最適化するために,強化学習(RL)と深層強化学習(DRL)フレームワークの可能性を検討する。
本稿では,車載ネットワークにおけるDRLの理解と適用を促進することを目的とした,標準化された学習モデル,最適化された報酬構造,協調型マルチエージェントシステムなどの重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-10T19:02:20Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - A Reinforcement Learning Approach for Dynamic Rebalancing in
Bike-Sharing System [11.237099288412558]
自転車シェアリングシステムはエコフレンドリーな都市移動を提供し、交通渋滞と健康的な生活様式の緩和に貢献している。
駅間で自転車を再分配するための車両を用いた効果的な再バランス戦略の開発は、オペレーターにとって非常に重要である。
本稿では,複数の車両との動的再バランス問題に対する時間的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-05T23:46:42Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Fast Approximate Solutions using Reinforcement Learning for Dynamic
Capacitated Vehicle Routing with Time Windows [3.5232085374661284]
本稿では, CVRP-TWDR (Capacitated Vehicle Routing with Time Windows and Dynamic Routing) の一般クラスに対する, 本質的に並列化, 高速, 近似学習に基づくソリューションを開発する。
艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。
論文 参考訳(メタデータ) (2021-02-24T06:30:16Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z) - Multi-Vehicle Routing Problems with Soft Time Windows: A Multi-Agent
Reinforcement Learning Approach [9.717648122961483]
ソフトタイムウインドウ(MVRPSTW)を用いたマルチ車両ルーティング問題は、都市ロジスティクスシステムにおいて不可欠である。
従来の手法は計算効率と解の質のジレンマを引き起こす。
そこで本研究では,ルーティング問題の解決に要する時間的オフライントレーニングのメリットを即時評価する,Multi-Agent Attention Modelと呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-13T14:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。