論文の概要: Hybrid Learning and Optimization methods for solving Capacitated Vehicle Routing Problem
- arxiv url: http://arxiv.org/abs/2509.15262v1
- Date: Thu, 18 Sep 2025 08:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.830609
- Title: Hybrid Learning and Optimization methods for solving Capacitated Vehicle Routing Problem
- Title(参考訳): キャパシタン化車両ルーティング問題に対するハイブリッド学習と最適化手法
- Authors: Monit Sharma, Hoong Chuin Lau,
- Abstract要約: CVRP(Capacitated Vehicle Routing Problem)は、ロジスティクスにおける基本的なNPハード問題である。
本稿では,古典的(RL-C-ALM)と量子拡張的(RL-Q-ALM)の両方のALMソルバ内でのペナルティパラメータの選択を自動化するために,深層強化学習(RL)を統合したハイブリッド最適化手法を提案する。
- 参考スコア(独自算出の注目度): 3.652509571098291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Capacitated Vehicle Routing Problem (CVRP) is a fundamental NP-hard problem in logistics. Augmented Lagrangian Methods (ALM) for solving CVRP performance depends heavily on well-tuned penalty parameters. In this paper, we propose a hybrid optimization approach that integrates deep reinforcement learning (RL) to automate the selection of penalty parameter values within both classical (RL-C-ALM) and quantum-enhanced (RL-Q-ALM) ALM solvers. Using Soft Actor-Critic, our approach learns penalty values from CVRP instance features and constraint violations. In RL-Q-ALM, subproblems are encoded as QUBOs and solved using Variational Quantum Eigensolvers (VQE). The agent learns across episodes by maximizing solution feasibility and minimizing cost. Experiments show that RL-C-ALM outperforms manually tuned ALM on synthetic and benchmark CVRP instances, achieving better solutions with fewer iterations. Also, RL-Q-ALM matches classical solution quality on small instances but incurs higher runtimes due to quantum overhead. Our results highlight the potential of combining RL with classical and quantum solvers for scalable, adaptive combinatorial optimization.
- Abstract(参考訳): CVRP(Capacitated Vehicle Routing Problem)は、ロジスティクスにおける基本的なNPハード問題である。
CVRP性能を解決するための拡張ラグランジアン法(ALM)は、十分に調整されたペナルティパラメータに大きく依存する。
本稿では,古典的(RL-C-ALM)と量子化(RL-Q-ALM)の両方のALMソルバにおけるペナルティパラメータの選択を自動化するために,深層強化学習(RL)を統合したハイブリッド最適化手法を提案する。
本手法は,ソフトアクター・クライブを用いて,CVRPインスタンスの特徴と制約違反からペナルティ値を求める。
RL-Q-ALMでは、サブプロブレムはQUBOとして符号化され、変分量子固有解法(VQE)を用いて解かれる。
エージェントは、ソリューションの実現可能性の最大化とコストの最小化により、エピソード全体で学習する。
実験の結果、RL-C-ALMは合成およびベンチマークのCVRPインスタンス上でALMを手動でチューニングし、より少ないイテレーションでより良いソリューションを実現することがわかった。
また、RL-Q-ALMは、小さなインスタンスで古典的なソリューション品質にマッチするが、量子オーバーヘッドにより高いランタイムを発生させる。
この結果から,RLと古典的および量子的解法を組み合わせることにより,スケーラブルで適応的な組合せ最適化を実現する可能性が示唆された。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Quantum-Assisted Solution Paths for the Capacitated Vehicle Routing
Problem [0.0]
我々は、キャパシタントカー問題(CVRP)またはその減量版であるトラベリングセールスパーソン問題(TSP)について議論する。
今日の最も強力な古典的アルゴリズムでさえ、CVRPは古典的解決が難しい。
量子コンピューティングは、ソリューションの時間を改善する手段を提供するかもしれない。
論文 参考訳(メタデータ) (2023-04-19T13:03:50Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。