論文の概要: Keep Rehearsing and Refining: Lifelong Learning Vehicle Routing under Continually Drifting Tasks
- arxiv url: http://arxiv.org/abs/2601.22509v1
- Date: Fri, 30 Jan 2026 03:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.195911
- Title: Keep Rehearsing and Refining: Lifelong Learning Vehicle Routing under Continually Drifting Tasks
- Title(参考訳): リハーサルとリファインディングを継続する: 連続的ドリフト作業下での生涯学習車両ルーティング
- Authors: Jiyuan Pei, Yi Mei, Jialin Liu, Mengjie Zhang, Xin Yao,
- Abstract要約: 本研究では,学習時間ステップよりも連続的なドリフトタスクの下で,ニューラルVRPソルバのための新しい生涯学習パラダイムについて検討する。
本稿では、学習効率の向上と、そのようなドリフト下での破滅的な忘れを軽減するための一般的なフレームワークであるDREE(Dual Replay with Experience Enhancement)を提案する。
- 参考スコア(独自算出の注目度): 8.939294630058729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing neural solvers for vehicle routing problems (VRPs) are typically trained either in a one-off manner on a fixed set of pre-defined tasks or in a lifelong manner on several tasks arriving sequentially, assuming sufficient training on each task. Both settings overlook a common real-world property: problem patterns may drift continually over time, yielding massive tasks sequentially arising while offering only limited training resources per task. In this paper, we study a novel lifelong learning paradigm for neural VRP solvers under continually drifting tasks over learning time steps, where sufficient training for any given task at any time is not available. We propose Dual Replay with Experience Enhancement (DREE), a general framework to improve learning efficiency and mitigate catastrophic forgetting under such drift. Extensive experiments show that, under such continual drift, DREE effectively learns new tasks, preserves prior knowledge, improves generalization to unseen tasks, and can be applied to diverse existing neural solvers.
- Abstract(参考訳): 既存の車両ルーティング問題(VRP)のニューラルソルバは、通常、固定された定義されたタスクセットでワンオフで訓練されるか、または、各タスクで十分なトレーニングを仮定して、順次到着するタスクで生涯にわたって訓練される。
両方の設定は、共通の現実世界の性質を見落としている: 問題パターンは、時間とともに継続的に流れ、タスクごとに限られたトレーニングリソースのみを提供しながら、シーケンシャルに発生する巨大なタスクをもたらす可能性がある。
本稿では,学習時間ステップよりも連続的にドリフトするタスクにおいて,任意のタスクに対する十分なトレーニングが得られない,ニューラルVRPソルバのための新しい生涯学習パラダイムについて検討する。
本稿では、学習効率の向上と、そのようなドリフト下での破滅的な忘れを軽減するための一般的なフレームワークであるDREE(Dual Replay with Experience Enhancement)を提案する。
このような連続的なドリフトの下で、DREEは新しいタスクを効果的に学習し、事前知識を保存し、目に見えないタスクへの一般化を改善し、様々な既存のニューラルソルバに適用できることを示した。
関連論文リスト
- Lifelong Learning with Behavior Consolidation for Vehicle Routing [8.939294630058729]
本稿では,ニューラルVRPソルバのための新しい生涯学習パラダイムについて検討する。
LLR-BCは、新しいタスクで訓練された問題解決者の行動とバッファリングされた課題とを整合させることにより、事前知識を効果的に統合する。
静電容量化車両経路問題と走行セールスマン問題の実験は、高性能ニューラルネットワークの訓練におけるLLR-BCの有効性を実証している。
論文 参考訳(メタデータ) (2025-09-26T02:03:48Z) - Dense Dynamics-Aware Reward Synthesis: Integrating Prior Experience with Demonstrations [24.041217922654738]
連続制御問題はスパース・リワード強化学習(RL)タスクとして定式化することができる。
オンラインRLメソッドは、各新しいタスクを解決するために、状態空間を自動的に探索することができる。
しかしながら、非ゼロ報酬につながる行動列の発見は、タスクの水平線が増加するにつれて指数関数的に難しくなる。
本稿では,1)タスク非依存の事前データセットに含まれる情報を抽出し,2)少数のタスク固有の専門家によるデモンストレーションを行う,体系的な報酬形成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-02T04:37:12Z) - Continual Deep Reinforcement Learning with Task-Agnostic Policy Distillation [0.0]
TAPD(Task-Agnostic Policy Distillation)フレームワークが導入されている。
本稿では,継続学習の問題に対処する。
タスク非依存の蒸留知識を利用することで、下流タスクをより効率的に解決することができる。
論文 参考訳(メタデータ) (2024-11-25T16:18:39Z) - Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。