論文の概要: Learning Generalizable Models for Vehicle Routing Problems via Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2210.07686v1
- Date: Fri, 14 Oct 2022 10:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:33:28.500757
- Title: Learning Generalizable Models for Vehicle Routing Problems via Knowledge
Distillation
- Title(参考訳): 知識蒸留による車両経路問題の一般化モデル学習
- Authors: Jieyi Bi, Yining Ma, Jiahai Wang, Zhiguang Cao, Jinbiao Chen, Yuan
Sun, Yeow Meng Chee
- Abstract要約: 車両ルーティング問題に対する最近のニューラル手法は、常に同じインスタンス分布上のディープモデルを訓練し、テストする。
より一般化可能な深層モデル学習のための適応多分布知識蒸留法を提案する。
我々のAMDKDは汎用的で、推論の計算資源が少ない。
- 参考スコア(独自算出の注目度): 23.483671660119384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent neural methods for vehicle routing problems always train and test the
deep models on the same instance distribution (i.e., uniform). To tackle the
consequent cross-distribution generalization concerns, we bring the knowledge
distillation to this field and propose an Adaptive Multi-Distribution Knowledge
Distillation (AMDKD) scheme for learning more generalizable deep models.
Particularly, our AMDKD leverages various knowledge from multiple teachers
trained on exemplar distributions to yield a light-weight yet generalist
student model. Meanwhile, we equip AMDKD with an adaptive strategy that allows
the student to concentrate on difficult distributions, so as to absorb
hard-to-master knowledge more effectively. Extensive experimental results show
that, compared with the baseline neural methods, our AMDKD is able to achieve
competitive results on both unseen in-distribution and out-of-distribution
instances, which are either randomly synthesized or adopted from benchmark
datasets (i.e., TSPLIB and CVRPLIB). Notably, our AMDKD is generic, and
consumes less computational resources for inference.
- Abstract(参考訳): 車両ルーティング問題に対する最近のニューラル手法は、常に同じインスタンス分布(例えば、一様)の深部モデルの訓練とテストを行う。
そこで我々は,この分野に知識蒸留を導入し,より一般化可能な深層モデル学習のための適応多分布知識蒸留(AMDKD)手法を提案する。
特に、AMDKDは、模範分布の訓練を受けた複数の教師の様々な知識を活用して、軽量で汎用的な学生モデルを生成する。
一方,我々はAMDKDに適応的戦略を導入し,学生が難しい分布に集中して,より効果的に知識を吸収できるようにする。
広範な実験結果から,amdkdは,ベースラインニューラル手法と比較して,ランダムに合成されるか,ベンチマークデータセット(tsplibおよびcvrplib)から採用される未発見の分布インスタンスと分布外インスタンスの両方において,競合する結果を得ることができた。
特に、AMDKDは汎用的で、推論の計算資源が少ない。
関連論文リスト
- Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Learning to Solve Routing Problems via Distributionally Robust
Optimization [14.506553345693536]
ルーティング問題を解決するための最近のディープモデルでは、トレーニング用のノードの単一分布が想定されており、分散一般化能力を著しく損なう。
この問題に対処するために、群分布的ロバストな最適化(グループDRO)を活用し、異なる分布群に対する重み付けと深層モデルのパラメータを、トレーニング中にインターリーブされた方法で共同で最適化する。
また、畳み込みニューラルネットワークに基づくモジュールを設計し、ディープモデルがノード間のより情報に富んだ潜在パターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-02-15T08:06:44Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。