論文の概要: Lifelong Learning with Behavior Consolidation for Vehicle Routing
- arxiv url: http://arxiv.org/abs/2509.21765v2
- Date: Mon, 29 Sep 2025 03:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.64866
- Title: Lifelong Learning with Behavior Consolidation for Vehicle Routing
- Title(参考訳): 自動車ルーティングのための行動統合による生涯学習
- Authors: Jiyuan Pei, Yi Mei, Jialin Liu, Mengjie Zhang, Xin Yao,
- Abstract要約: 本稿では,ニューラルVRPソルバのための新しい生涯学習パラダイムについて検討する。
LLR-BCは、新しいタスクで訓練された問題解決者の行動とバッファリングされた課題とを整合させることにより、事前知識を効果的に統合する。
静電容量化車両経路問題と走行セールスマン問題の実験は、高性能ニューラルネットワークの訓練におけるLLR-BCの有効性を実証している。
- 参考スコア(独自算出の注目度): 8.939294630058729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent neural solvers have demonstrated promising performance in learning to solve routing problems. However, existing studies are primarily based on one-off training on one or a set of predefined problem distributions and scales, i.e., tasks. When a new task arises, they typically rely on either zero-shot generalization, which may be poor due to the discrepancies between the new task and the training task(s), or fine-tuning the pretrained solver on the new task, which possibly leads to catastrophic forgetting of knowledge acquired from previous tasks. This paper explores a novel lifelong learning paradigm for neural VRP solvers, where multiple tasks with diverse distributions and scales arise sequentially over time. Solvers are required to effectively and efficiently learn to solve new tasks while maintaining their performance on previously learned tasks. Consequently, a novel framework called Lifelong Learning Router with Behavior Consolidation (LLR-BC) is proposed. LLR-BC consolidates prior knowledge effectively by aligning behaviors of the solver trained on a new task with the buffered ones in a decision-seeking way. To encourage more focus on crucial experiences, LLR-BC assigns greater consolidated weights to decisions with lower confidence. Extensive experiments on capacitated vehicle routing problems and traveling salesman problems demonstrate LLR-BC's effectiveness in training high-performance neural solvers in a lifelong learning setting, addressing the catastrophic forgetting issue, maintaining their plasticity, and improving zero-shot generalization ability.
- Abstract(参考訳): 最近のニューラルソルバは、ルーティング問題を解決するための学習において有望な性能を示した。
しかし、既存の研究は、主に1つまたは1つの事前定義された問題分布とスケールのセット、すなわちタスクのワンオフトレーニングに基づいている。
新しいタスクが発生すると、彼らは通常ゼロショットの一般化に頼るが、これは新しいタスクとトレーニングタスクの相違により、あるいは新しいタスクで事前訓練されたソルバを微調整することで、以前のタスクから取得した知識を破滅的に忘れてしまう可能性がある。
本稿では,多種多様な分布とスケールを持つ複数のタスクが時間とともに順次発生する,ニューラルVRPソルバのための新しい生涯学習パラダイムについて検討する。
ソリューションは、以前に学習したタスクのパフォーマンスを維持しながら、新しいタスクの解決を効果的かつ効率的に学ばなければならない。
その結果,行動統合型生涯学習ルータ (LLR-BC) と呼ばれる新しいフレームワークが提案されている。
LLR-BCは、新しいタスクで訓練された解の動作とバッファリングされた解の動作を意思決定方法で整合させることにより、事前知識を効果的に統合する。
重要な経験にもっと焦点を合わせるために、LLR-BCはより信頼性の低い決定により大きな統合的な重みを割り当てる。
LLR-BCは、生涯にわたる学習環境で高性能ニューラルネットワークを訓練し、破滅的な忘れの問題に対処し、可塑性を維持し、ゼロショットの一般化能力を向上させる。
関連論文リスト
- Mitigating Interference in the Knowledge Continuum through Attention-Guided Incremental Learning [17.236861687708096]
Attention-Guided Incremental Learning' (AGILE)は、タスク間の干渉を効果的に軽減するために、コンパクトなタスク注意を組み込んだリハーサルベースのCLアプローチである。
AGILEは、タスク干渉を緩和し、複数のCLシナリオにおいてリハーサルベースのアプローチより優れていることで、一般化性能を著しく向上する。
論文 参考訳(メタデータ) (2024-05-22T20:29:15Z) - Efficient Rehearsal Free Zero Forgetting Continual Learning using
Adaptive Weight Modulation [3.6683171094134805]
継続的な学習には、長期にわたって複数のタスクの知識を取得することが含まれる。
この問題に対するほとんどのアプローチは、新しいタスクのパフォーマンスを最大化することと、以前のタスクの忘れを最小化することのバランスを求める。
提案手法は,新しいタスクの性能を最大化しつつ,忘れることのゼロを保証しようとするものである。
論文 参考訳(メタデータ) (2023-11-26T12:36:05Z) - Replay-enhanced Continual Reinforcement Learning [37.34722105058351]
本稿では,新しいタスクにおける既存のリプレイ方式の可塑性を大幅に向上させるリプレイ拡張手法であるRECALLを紹介する。
Continual Worldベンチマークの実験では、RECALLは純粋に完全なメモリリプレイよりもはるかに優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-20T06:21:52Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Online Continual Learning via the Knowledge Invariant and Spread-out
Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。
知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。
提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文 参考訳(メタデータ) (2023-02-02T04:03:38Z) - Beyond Not-Forgetting: Continual Learning with Backward Knowledge
Transfer [39.99577526417276]
継続学習(CL)では、エージェントは、新しいタスクと古いタスクの両方の学習性能を向上させることができる。
既存のCL手法の多くは、古いタスクに対する学習モデルの修正を最小化することによって、ニューラルネットワークの破滅的な忘れに対処することに焦点を当てている。
データ再生のない固定容量ニューラルネットワークに対して,バックワードノウルEdge tRansfer (CUBER) を用いた新しいCL法を提案する。
論文 参考訳(メタデータ) (2022-11-01T23:55:51Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。