論文の概要: A Unified Knowledge Embedded Reinforcement Learning-based Framework for Generalized Capacitated Vehicle Routing Problems
- arxiv url: http://arxiv.org/abs/2605.14416v1
- Date: Thu, 14 May 2026 06:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.651387
- Title: A Unified Knowledge Embedded Reinforcement Learning-based Framework for Generalized Capacitated Vehicle Routing Problems
- Title(参考訳): 一般化キャパシタン化車両ルーティング問題のための統合知識組み込み強化学習フレームワーク
- Authors: Wen Wang, Xiangchen Wu, Liang Wang, Hao Hu, Xianping Tao,
- Abstract要約: Capacitated Vehicle Routing Problem (CVRP) は、物流や輸送における幅広い応用において基本的なNPハード問題である。
最近の強化学習アプローチは最適化の可能性を示しているが、それらはエンドツーエンドの学習に依存しており、明確な問題解決の知識がない。
本稿では,ルートファーストクラスタ・セカンダス問題に触発された知識組み込みフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.968947174938942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Capacitated Vehicle Routing Problem (CVRP) is a fundamental NP-hard problem with broad applications in logistics and transportation. Real-world CVRPs often involve diverse objectives and complex constraints, such as time windows or backhaul requirements, motivating the development of a unified solution framework. Recent reinforcement learning (RL) approaches have shown promise in combinatorial optimization, yet they rely on end-to-end learning and lack explicit problem-solving knowledge, limiting solution quality. In this paper, we propose a knowledge-embedded framework inspired by the Route-First Cluster-Second heuristics. It incorporates knowledge at two levels: (1) decomposing CVRPs into the route-first and cluster-second subproblems, and (2) leveraging dynamic programming to solve the second subproblem, whose results guide the RL-based constructive solver to solve the first problem. To mitigate partial observability caused by problem decomposition, we introduce a unified history-enhanced context processing module. Extensive experiments show that this framework achieves superior solution quality compared with state-of-the-art learning-based methods, with a smaller gap to classical heuristics, demonstrating strong generalization across diverse CVRP variants.
- Abstract(参考訳): Capacitated Vehicle Routing Problem (CVRP) は、物流や輸送における幅広い応用において基本的なNPハード問題である。
現実世界のCVRPは、時間窓やバックホール要求といった様々な目的や複雑な制約を伴い、統合されたソリューションフレームワークの開発を動機付けます。
最近の強化学習(RL)アプローチは、組合せ最適化において有望であるが、それらはエンドツーエンドの学習に依存し、明確な問題解決知識がなく、ソリューションの品質が制限されている。
本稿では,ルートファーストクラスタの第2次ヒューリスティックスに触発された知識組み込みフレームワークを提案する。
1)CVRPをルートファーストとクラスタ秒のサブプロブレムに分解し、(2)動的プログラミングを活用して第2のサブプロブレムを解く。
問題分解による部分的可観測性を軽減するため,統合された履歴強調コンテキスト処理モジュールを導入する。
大規模な実験により、このフレームワークは最先端の学習法に比べて優れた解品質を達成でき、古典的ヒューリスティックスとのギャップは小さく、多様なCVRP変種にまたがる強力な一般化が示されている。
関連論文リスト
- Enhancing Cross-Problem Vehicle Routing via Federated Learning [26.83758750752992]
車両ルーティング問題(VRPs)は、現代の物流およびサプライチェーン管理における中核的な最適化課題である。
本稿では,フェデレートラーニング(MPSF-FL)を用いた「マルチプロブレムプレトレイン(Multi-problem Pre-train, then Single-problem Fine-Tune)」フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-12T13:58:47Z) - Vehicle-as-Prompt: A Unified Deep Reinforcement Learning Framework for Heterogeneous Fleet Vehicle Routing Problem [12.469727665338603]
不均一艦隊車両ルーティング問題 (HFVRP) には、異種固定コスト、可変走行コスト、容量制約が含まれる。
我々は,様々な異なる設定で問題を解くことができる,統合された深層強化学習フレームワークを開発した。
論文 参考訳(メタデータ) (2026-04-06T21:48:52Z) - Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions [51.22818149833102]
マルチエージェント強化学習(MARL)は、車間通信(C-V2X)ネットワークにおける無線リソース割り当ての有望なアプローチとして登場した。
しかし、MARLに固有の多面的課題はしばしば絡み合っており、車載環境における個々の影響を理解することは困難である。
我々は, C-V2X RRA を, 複雑さが徐々に増大する多エージェント干渉ゲーム列として定式化し, このギャップを埋める。
論文 参考訳(メタデータ) (2026-02-18T14:46:56Z) - An Agentic Framework with LLMs for Solving Complex Vehicle Routing Problems [66.60904891478687]
複雑な車両ルーティング問題を解決するために,LLM (AFL) を用いたエージェントフレームワークを提案する。
AFLは生の入力から知識を直接抽出し、自己完結型コード生成を可能にする。
AFLは、コード信頼性とソリューション実現性の両方において、既存のLCMベースのベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-19T03:59:25Z) - Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - Towards Generalizable Neural Solvers for Vehicle Routing Problems via Ensemble with Transferrable Local Policy [24.91781032046481]
車両ルーティング問題(VRP)のための多くのニューラルネットワーク構築手法は、特定のノード分布と限られたスケールを持つ合成問題インスタンスに焦点を当てている。
我々は,局所移動可能な局所的特徴から学習する補助的政策を設計し,それを典型的な建設方針と統合し,アンサンブル政策を形成する。
共同トレーニングでは、集約されたポリシが協調的かつ補完的に実行され、一般化が促進される。
論文 参考訳(メタデータ) (2023-08-27T13:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。