論文の概要: Hybrid Learning and Optimization methods for solving Capacitated Vehicle Routing Problem
- arxiv url: http://arxiv.org/abs/2509.15262v1
- Date: Thu, 18 Sep 2025 08:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.830609
- Title: Hybrid Learning and Optimization methods for solving Capacitated Vehicle Routing Problem
- Title(参考訳): キャパシタン化車両ルーティング問題に対するハイブリッド学習と最適化手法
- Authors: Monit Sharma, Hoong Chuin Lau,
- Abstract要約: CVRP(Capacitated Vehicle Routing Problem)は、ロジスティクスにおける基本的なNPハード問題である。
本稿では,古典的(RL-C-ALM)と量子拡張的(RL-Q-ALM)の両方のALMソルバ内でのペナルティパラメータの選択を自動化するために,深層強化学習(RL)を統合したハイブリッド最適化手法を提案する。
- 参考スコア(独自算出の注目度): 3.652509571098291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Capacitated Vehicle Routing Problem (CVRP) is a fundamental NP-hard problem in logistics. Augmented Lagrangian Methods (ALM) for solving CVRP performance depends heavily on well-tuned penalty parameters. In this paper, we propose a hybrid optimization approach that integrates deep reinforcement learning (RL) to automate the selection of penalty parameter values within both classical (RL-C-ALM) and quantum-enhanced (RL-Q-ALM) ALM solvers. Using Soft Actor-Critic, our approach learns penalty values from CVRP instance features and constraint violations. In RL-Q-ALM, subproblems are encoded as QUBOs and solved using Variational Quantum Eigensolvers (VQE). The agent learns across episodes by maximizing solution feasibility and minimizing cost. Experiments show that RL-C-ALM outperforms manually tuned ALM on synthetic and benchmark CVRP instances, achieving better solutions with fewer iterations. Also, RL-Q-ALM matches classical solution quality on small instances but incurs higher runtimes due to quantum overhead. Our results highlight the potential of combining RL with classical and quantum solvers for scalable, adaptive combinatorial optimization.
- Abstract(参考訳): CVRP(Capacitated Vehicle Routing Problem)は、ロジスティクスにおける基本的なNPハード問題である。
CVRP性能を解決するための拡張ラグランジアン法(ALM)は、十分に調整されたペナルティパラメータに大きく依存する。
本稿では,古典的(RL-C-ALM)と量子化(RL-Q-ALM)の両方のALMソルバにおけるペナルティパラメータの選択を自動化するために,深層強化学習(RL)を統合したハイブリッド最適化手法を提案する。
本手法は,ソフトアクター・クライブを用いて,CVRPインスタンスの特徴と制約違反からペナルティ値を求める。
RL-Q-ALMでは、サブプロブレムはQUBOとして符号化され、変分量子固有解法(VQE)を用いて解かれる。
エージェントは、ソリューションの実現可能性の最大化とコストの最小化により、エピソード全体で学習する。
実験の結果、RL-C-ALMは合成およびベンチマークのCVRPインスタンス上でALMを手動でチューニングし、より少ないイテレーションでより良いソリューションを実現することがわかった。
また、RL-Q-ALMは、小さなインスタンスで古典的なソリューション品質にマッチするが、量子オーバーヘッドにより高いランタイムを発生させる。
この結果から,RLと古典的および量子的解法を組み合わせることにより,スケーラブルで適応的な組合せ最適化を実現する可能性が示唆された。
関連論文リスト
- Enhancing CVRP Solver through LLM-driven Automatic Heuristic Design [16.7839584177637]
本研究では,Large Language Models (LLMs) を利用したCVRP問題解決に革命をもたらす新しいアプローチであるAILS-AHDを提案する。
提案手法は,進化的検索フレームワークをLLMと統合し,AILS法内の遺跡を動的に生成・最適化する。
当社のアプローチでは,CVRPLibの大規模ベンチマークにおいて,10インスタンス中8インスタンスに対して,新たに最もよく知られたソリューションを確立している。
論文 参考訳(メタデータ) (2026-02-26T15:12:23Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers [0.37109226820205005]
強化学習(RL)を用いた高次h/pにおける異方性p適応の自動化と最適化のための新しい手法を提案する。
我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。
我々は、局所的な離散化誤差の定量化を可能にする、安価なRLベースの誤差推定手法を導出する。
論文 参考訳(メタデータ) (2024-07-26T17:55:23Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Quantum-Assisted Solution Paths for the Capacitated Vehicle Routing
Problem [0.0]
我々は、キャパシタントカー問題(CVRP)またはその減量版であるトラベリングセールスパーソン問題(TSP)について議論する。
今日の最も強力な古典的アルゴリズムでさえ、CVRPは古典的解決が難しい。
量子コンピューティングは、ソリューションの時間を改善する手段を提供するかもしれない。
論文 参考訳(メタデータ) (2023-04-19T13:03:50Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Cross Entropy Hyperparameter Optimization for Constrained Problem
Hamiltonians Applied to QAOA [68.11912614360878]
QAOA(Quantum Approximate Optimization Algorithm)のようなハイブリッド量子古典アルゴリズムは、短期量子コンピュータを実用的に活用するための最も奨励的なアプローチの1つである。
このようなアルゴリズムは通常変分形式で実装され、古典的な最適化法と量子機械を組み合わせて最適化問題の優れた解を求める。
本研究では,クロスエントロピー法を用いてランドスケープを形作り,古典的パラメータがより容易により良いパラメータを発見でき,その結果,性能が向上することを示す。
論文 参考訳(メタデータ) (2020-03-11T13:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。