論文の概要: Lifelong Learner: Discovering Versatile Neural Solvers for Vehicle Routing Problems
- arxiv url: http://arxiv.org/abs/2508.11679v1
- Date: Fri, 08 Aug 2025 16:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.505309
- Title: Lifelong Learner: Discovering Versatile Neural Solvers for Vehicle Routing Problems
- Title(参考訳): Lifelong Learner: 車両ルーティング問題に対するVersatile Neural Solversの発見
- Authors: Shaodi Feng, Zhuoyi Lin, Jianan Zhou, Cong Zhang, Jingwen Li, Kuan-Wen Chen, Senthilnath Jayavelu, Yew-Soon Ong,
- Abstract要約: 本稿では,異なる文脈でVRPを管理するために,ニューラルソルバを漸進的に訓練する,新しい生涯学習フレームワークを提案する。
LL内では、先行するVRPの解法から得られた知識を次のものに伝達する、コンテキスト間自己認識機構が提案されている。
我々のLLは、様々な状況下で一般的なVRPに対処するための効果的なポリシーを発見することができ、他のニューラルネットワークよりも優れ、ほとんどのVRPにとって最高のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 29.57042055083142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has been extensively explored to solve vehicle routing problems (VRPs), which yields a range of data-driven neural solvers with promising outcomes. However, most neural solvers are trained to tackle VRP instances in a relatively monotonous context, e.g., simplifying VRPs by using Euclidean distance between nodes and adhering to a single problem size, which harms their off-the-shelf application in different scenarios. To enhance their versatility, this paper presents a novel lifelong learning framework that incrementally trains a neural solver to manage VRPs in distinct contexts. Specifically, we propose a lifelong learner (LL), exploiting a Transformer network as the backbone, to solve a series of VRPs. The inter-context self-attention mechanism is proposed within LL to transfer the knowledge obtained from solving preceding VRPs into the succeeding ones. On top of that, we develop a dynamic context scheduler (DCS), employing the cross-context experience replay to further facilitate LL looking back on the attained policies of solving preceding VRPs. Extensive results on synthetic and benchmark instances (problem sizes up to 18k) show that our LL is capable of discovering effective policies for tackling generic VRPs in varying contexts, which outperforms other neural solvers and achieves the best performance for most VRPs.
- Abstract(参考訳): 深層学習は車両ルーティング問題(VRP)を解決するために広く研究されてきた。
しかし、ほとんどのニューラルソルバは、ノード間のユークリッド距離を使用し、単一の問題サイズに固執することにより、VRPインスタンスを比較的単調な状況、例えば、VRPを単純化するように訓練されている。
そこで本研究では,VRPを個別の文脈で管理するために,ニューラルネットワークを漸進的に訓練する,新しい生涯学習フレームワークを提案する。
具体的には,トランスフォーマーネットワークをバックボーンとして活用した生涯学習者(LL)を提案し,一連のVRPを解決する。
LL内では、先行するVRPの解法から得られた知識を次のものに伝達する、コンテキスト間自己認識機構が提案されている。
そこで我々は,従来のVRPの解決方針を振り返る上で,相互コンテキスト体験リプレイを用いた動的コンテキストスケジューラ(DCS)を開発した。
合成およびベンチマークインスタンス(最大18kのプロブレムサイズ)の広範な結果から、LLは、さまざまな状況下で一般的なVRPに対処する効果的なポリシーを発見でき、他のニューラルネットワークよりも優れ、ほとんどのVRPにとって最高のパフォーマンスを達成することができる。
関連論文リスト
- TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Towards Generalizable Neural Solvers for Vehicle Routing Problems via Ensemble with Transferrable Local Policy [24.91781032046481]
車両ルーティング問題(VRP)のための多くのニューラルネットワーク構築手法は、特定のノード分布と限られたスケールを持つ合成問題インスタンスに焦点を当てている。
我々は,局所移動可能な局所的特徴から学習する補助的政策を設計し,それを典型的な建設方針と統合し,アンサンブル政策を形成する。
共同トレーニングでは、集約されたポリシが協調的かつ補完的に実行され、一般化が促進される。
論文 参考訳(メタデータ) (2023-08-27T13:22:50Z) - Learning to Solve Soft-Constrained Vehicle Routing Problems with
Lagrangian Relaxation [0.4014524824655105]
現実世界のアプリケーションにおける車両ルーティング問題(VRP)には、様々な制約が伴うことが多い。
ソフト制約付きVRPを解くために,強化学習に基づく手法を提案する。
本稿では,3種類のVRP,TSPTW(Travelling Salesman Problem with Time Windows),CVRP(Capacitated VRP),CVRPTW(Capacitated VRP with Time Windows)に適用する。
論文 参考訳(メタデータ) (2022-07-20T12:51:06Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。