論文の概要: MTL-KD: Multi-Task Learning Via Knowledge Distillation for Generalizable Neural Vehicle Routing Solver
- arxiv url: http://arxiv.org/abs/2506.02935v2
- Date: Sat, 14 Jun 2025 15:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:31.499204
- Title: MTL-KD: Multi-Task Learning Via Knowledge Distillation for Generalizable Neural Vehicle Routing Solver
- Title(参考訳): MTL-KD:汎用型ニューラルビークルルーティングソルバーの知識蒸留
- Authors: Yuepeng Zheng, Fu Luo, Zhenkun Wang, Yaoxin Wu, Yu Zhou,
- Abstract要約: 本研究は知識蒸留(MTL-KD)による新しいマルチタスク学習手法を提案する。
提案手法は,複数の異なるRLベースの単一タスクモデルから単一重デコーダモデルへのポリシー知識の転送,ラベルなしトレーニング,多種多様なタスクにおけるモデルの一般化能力の向上を効果的に行う。
最大1000ノードのVRP変異体6種と10種のVRP変異体に対する実験結果から,提案手法が一様および実世界のベンチマークにおいて常に優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 9.61561012521585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Task Learning (MTL) in Neural Combinatorial Optimization (NCO) is a promising approach to train a unified model capable of solving multiple Vehicle Routing Problem (VRP) variants. However, existing Reinforcement Learning (RL)-based multi-task methods can only train light decoder models on small-scale problems, exhibiting limited generalization ability when solving large-scale problems. To overcome this limitation, this work introduces a novel multi-task learning method driven by knowledge distillation (MTL-KD), which enables the efficient training of heavy decoder models with strong generalization ability. The proposed MTL-KD method transfers policy knowledge from multiple distinct RL-based single-task models to a single heavy decoder model, facilitating label-free training and effectively improving the model's generalization ability across diverse tasks. In addition, we introduce a flexible inference strategy termed Random Reordering Re-Construction (R3C), which is specifically adapted for diverse VRP tasks and further boosts the performance of the multi-task model. Experimental results on 6 seen and 10 unseen VRP variants with up to 1000 nodes indicate that our proposed method consistently achieves superior performance on both uniform and real-world benchmarks, demonstrating robust generalization abilities.
- Abstract(参考訳): ニューラルネットワーク最適化(NCO)におけるマルチタスク学習(MTL)は、複数の車両ルーティング問題(VRP)を解くことのできる統一モデルをトレーニングするための有望なアプローチである。
しかし、既存の強化学習(RL)に基づくマルチタスク手法は、小規模問題に対してのみ光デコーダモデルを訓練することができ、大規模な問題を解決する際には限定的な一般化能力を示す。
この制限を克服するために、知識蒸留(MTL-KD)によって駆動される新しいマルチタスク学習手法を導入し、強力な一般化能力を持つ重復号器モデルの効率的な訓練を可能にする。
提案手法は,複数の異なるRLベースの単一タスクモデルから単一重デコーダモデルにポリシー知識を変換し,ラベルなし学習を容易にし,多様なタスクにおけるモデルの一般化能力を効果的に向上させる。
さらに,多様なVRPタスクに特化して適応し,マルチタスクモデルの性能をさらに向上させるR3C(Random Reordering Re-Construction)と呼ばれるフレキシブル推論戦略を導入する。
最大1000ノードのVRP変異体6種と10種のVRP変異体に対する実験結果から,提案手法が一様および実世界のベンチマークにおいて常に優れた性能を達成し,堅牢な一般化能力を示すことが示唆された。
関連論文リスト
- Improving Generalization of Neural Combinatorial Optimization for Vehicle Routing Problems via Test-Time Projection Learning [3.0711362702464684]
我々は,Large Language Models (LLM) による新しい学習フレームワークを導入する。
ニューラルネットワークとのジョイントトレーニングを必要とする一般的なテクニックとは異なり、我々のアプローチは推論フェーズでのみ動作する。
提案手法により,100ノード以上の大規模トラベリングセールスマン問題(TSP)と最大100Kノードのキャパシタン化車両ルーティング問題(CVRP)において,バックボーンモデル(100ノードインスタンスでトレーニング)が優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-06-03T03:15:22Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。