論文の概要: Demand Acceptance using Reinforcement Learning for Dynamic Vehicle Routing Problem with Emission Quota
- arxiv url: http://arxiv.org/abs/2603.13279v1
- Date: Fri, 27 Feb 2026 11:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.260327
- Title: Demand Acceptance using Reinforcement Learning for Dynamic Vehicle Routing Problem with Emission Quota
- Title(参考訳): 排出クオタを考慮した動的車両ルーティング問題に対する強化学習を用いた需要受容
- Authors: Farid Najar, Dominique Barth, Yann Strozecki,
- Abstract要約: 本稿では,エミッション・クオタ(DS-QVRP-RR)を用いた動的・車両ルーティング問題の導入と形式化について述べる。
動的需要受け入れとルーティングをグローバルエミッション制約と統合する。
重要な貢献は、要求の予測的拒絶と新しいルートの生成を容易にするために設計された2層最適化フレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces and formalizes the Dynamic and Stochastic Vehicle Routing Problem with Emission Quota (DS-QVRP-RR), a novel routing problems that integrates dynamic demand acceptance and routing with a global emission constraint. A key contribution is a two-layer optimization framework designed to facilitate anticipatory rejections of demands and generation of new routes. To solve this, we develop hybrid algorithms that combine reinforcement learning with combinatorial optimization techniques. We present a comprehensive computational study that compares our approach against traditional methods. Our findings demonstrate the relevance of our approach for different types of inputs, even when the horizon of the problem is uncertain.
- Abstract(参考訳): 本稿では,ダイナミックな需要受け入れとルーティングをグローバルなエミッション制約と統合した新しいルーティング問題である,エミッション・クオタ(DS-QVRP-RR)を導入し,定式化する。
重要な貢献は、要求の予測的拒絶と新しいルートの生成を容易にするために設計された2層最適化フレームワークである。
そこで我々は,強化学習と組合せ最適化技術を組み合わせたハイブリッドアルゴリズムを開発した。
本研究は,従来の手法と比較した総合計算研究である。
本研究は,問題の地平線が不確かである場合でも,異なるタイプの入力に対するアプローチの妥当性を示すものである。
関連論文リスト
- Learning for routing: A guided review of recent developments and future directions [3.3629991374416477]
旅行セールスマン問題(TSP)や車両ルーティング問題(VRP)などのルーティング問題に焦点をあてる。
これらの問題の本質的な複雑さのため、正確なアルゴリズムは最適解を見つけるのに過剰な計算時間を必要とすることが多い。
本稿では,MLに基づく分類体系を構築ベースおよび改良ベースアプローチに適用し,様々な問題特性に適用可能であることを明らかにする。
論文 参考訳(メタデータ) (2025-06-30T19:39:11Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Accelerating Vehicle Routing via AI-Initialized Genetic Algorithms [53.75036695728983]
車両ルーティング問題 (VRP) は進化的最適化における基本的なNPハード問題である。
本稿では、強化学習エージェントを事前のインスタンスで訓練し、初期解を迅速に生成する最適化フレームワークを提案する。
このフレームワークは、様々な時間予算において、現在の最先端のソルバよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-04-08T15:21:01Z) - Towards Constraint-Based Adaptive Hypergraph Learning for Solving Vehicle Routing: An End-to-End Solution [4.965709007367529]
車両の経路問題は、広大な解空間と複雑な制約によって特徴づけられる。
本研究では,制約指向のハイパーグラフと強化学習を組み合わせた新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T14:42:44Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Combinatorial Optimization enriched Machine Learning to solve the
Dynamic Vehicle Routing Problem with Time Windows [5.4807970361321585]
最適化層を組み込んだ新しい機械学習パイプラインを提案する。
最近,EURO Meets NeurIPS Competition at NeurIPS 2022において,このパイプラインを波による動的車両ルーティング問題に適用した。
提案手法は,提案した動的車両経路問題の解法において,他の全ての手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-03T08:23:09Z) - An Overview and Experimental Study of Learning-based Optimization
Algorithms for Vehicle Routing Problem [49.04543375851723]
車両ルーティング問題(VRP)は典型的な離散最適化問題である。
多くの研究は、VRPを解決するための学習に基づく最適化アルゴリズムについて検討している。
本稿では、最近のこの分野の進歩を概観し、関連するアプローチをエンドツーエンドアプローチとステップバイステップアプローチに分割する。
論文 参考訳(メタデータ) (2021-07-15T02:13:03Z) - RP-DQN: An application of Q-Learning to Vehicle Routing Problems [2.6750287043724303]
提案手法は,CVRP上でノードを逐次挿入してソリューションを構築する自動回帰ポリシーの最先端性能を実現する。
我々は、mdvrpに機械学習手法で取り組み、この問題タイプが、他のmlメソッドよりも我々のアプローチから大きな利益を得られることを実証した。
論文 参考訳(メタデータ) (2021-04-25T18:28:35Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。