論文の概要: A Curriculum-Based Deep Reinforcement Learning Framework for the Electric Vehicle Routing Problem
- arxiv url: http://arxiv.org/abs/2601.15038v1
- Date: Wed, 21 Jan 2026 14:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.399766
- Title: A Curriculum-Based Deep Reinforcement Learning Framework for the Electric Vehicle Routing Problem
- Title(参考訳): 電気自動車ルーティング問題に対するカリキュラムベース深部強化学習フレームワーク
- Authors: Mertcan Daysalilar, Fuat Uyguroglu, Gabriel Nicolosi, Adam Meyers,
- Abstract要約: EVRPTW(Electric Vehicle routing problem with Time Window)は、持続可能なロジスティクスにおいて複雑な最適化問題である。
この不安定性を解決するために,カリキュラムベースの深層強化学習(CB-DRL)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.4666493857924357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The electric vehicle routing problem with time windows (EVRPTW) is a complex optimization problem in sustainable logistics, where routing decisions must minimize total travel distance, fleet size, and battery usage while satisfying strict customer time constraints. Although deep reinforcement learning (DRL) has shown great potential as an alternative to classical heuristics and exact solvers, existing DRL models often struggle to maintain training stability-failing to converge or generalize when constraints are dense. In this study, we propose a curriculum-based deep reinforcement learning (CB-DRL) framework designed to resolve this instability. The framework utilizes a structured three-phase curriculum that gradually increases problem complexity: the agent first learns distance and fleet optimization (Phase A), then battery management (Phase B), and finally the full EVRPTW (Phase C). To ensure stable learning across phases, the framework employs a modified proximal policy optimization algorithm with phase-specific hyperparameters, value and advantage clipping, and adaptive learning-rate scheduling. The policy network is built upon a heterogeneous graph attention encoder enhanced by global-local attention and feature-wise linear modulation. This specialized architecture explicitly captures the distinct properties of depots, customers, and charging stations. Trained exclusively on small instances with N=10 customers, the model demonstrates robust generalization to unseen instances ranging from N=5 to N=100, significantly outperforming standard baselines on medium-scale problems. Experimental results confirm that this curriculum-guided approach achieves high feasibility rates and competitive solution quality on out-of-distribution instances where standard DRL baselines fail, effectively bridging the gap between neural speed and operational reliability.
- Abstract(参考訳): 時間窓付き電気自動車ルーティング問題(EVRPTW)は、持続可能なロジスティクスにおける複雑な最適化問題であり、経路決定は、厳密な顧客時間制約を満たしつつ、総走行距離、車両サイズ、バッテリー使用量を最小化しなければならない。
深部強化学習(DRL)は、古典的ヒューリスティックや正確な解法に代わるものとして大きな可能性を示しているが、既存のDRLモデルは、制約が密集した時に収束または一般化するために、安定性に欠けるトレーニングの維持に苦慮することが多い。
本研究では,この不安定性を解決するために,カリキュラムベースの深層強化学習(CB-DRL)フレームワークを提案する。
このフレームワークは、まず距離と艦隊最適化(Phase A)を学習し、次にバッテリー管理(Phase B)、最後に完全なEVRPTW(Phase C)を学習する。
フェーズ間の安定した学習を保証するため、このフレームワークは、位相特異的なハイパーパラメータ、値と利点のクリッピング、適応的な学習速度スケジューリングを備えた、修正された近似ポリシー最適化アルゴリズムを採用している。
ポリシネットワークは,グローバルローカルアテンションと機能ワイド線形変調により強化された異種グラフアテンションエンコーダ上に構築されている。
この特殊なアーキテクチャは、デポ、顧客、充電ステーションの異なる特性を明示的に捉えている。
N=10の顧客を持つ小さなインスタンスでのみ訓練されたこのモデルは、N=5からN=100までの未確認インスタンスへの堅牢な一般化を示し、中規模問題における標準ベースラインを著しく上回る。
実験結果から,標準DRLベースラインが故障するアウト・オブ・ディストリビューションインスタンスにおいて,このカリキュラム誘導方式は高い実現可能性率と競合解品質を実現し,ニューラルスピードと運用信頼性のギャップを効果的に埋めることが確認された。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - World Models as Reference Trajectories for Rapid Motor Adaptation [0.0]
リフレクティブ・ワールド・モデル(Reflexive World Models、RWM)は、世界モデル予測を暗黙の基準軌跡として使用し、迅速な適応を行うための二重制御フレームワークである。
本手法は、強化学習とロバストモータ実行により、制御問題を長期報酬に分離する。
論文 参考訳(メタデータ) (2025-05-21T14:46:41Z) - Enhancing Reinforcement Learning for the Floorplanning of Analog ICs with Beam Search [0.32985979395737786]
本稿では,強化学習(RL)とビーム(BS)戦略を組み合わせたハイブリッド手法を提案する。
BSアルゴリズムはエージェントの推論プロセスを強化し、フレキシブルなフロアプランを生成する。
実験結果から, 標準RL法と比較すると, 面積, 死空間, 線長が約5~85%向上した。
論文 参考訳(メタデータ) (2025-05-08T08:50:32Z) - Accelerating Vehicle Routing via AI-Initialized Genetic Algorithms [53.75036695728983]
車両ルーティング問題 (VRP) は進化的最適化における基本的なNPハード問題である。
本稿では、強化学習エージェントを事前のインスタンスで訓練し、初期解を迅速に生成する最適化フレームワークを提案する。
このフレームワークは、様々な時間予算において、現在の最先端のソルバよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-04-08T15:21:01Z) - A Graph-based Adversarial Imitation Learning Framework for Reliable & Realtime Fleet Scheduling in Urban Air Mobility [5.19664437943693]
本稿では,艦隊スケジューリング問題の包括的最適化について述べる。
また、代替ソリューションのアプローチの必要性も認識している。
新しい模倣アプローチは、目に見えない最悪のシナリオにおいて、パフォーマンスと顕著な改善を実現する。
論文 参考訳(メタデータ) (2024-07-16T18:51:24Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Fast Approximate Solutions using Reinforcement Learning for Dynamic
Capacitated Vehicle Routing with Time Windows [3.5232085374661284]
本稿では, CVRP-TWDR (Capacitated Vehicle Routing with Time Windows and Dynamic Routing) の一般クラスに対する, 本質的に並列化, 高速, 近似学習に基づくソリューションを開発する。
艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。
論文 参考訳(メタデータ) (2021-02-24T06:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。