論文の概要: Distilling Autoregressive Models to Obtain High-Performance
Non-Autoregressive Solvers for Vehicle Routing Problems with Faster Inference
Speed
- arxiv url: http://arxiv.org/abs/2312.12469v2
- Date: Thu, 18 Jan 2024 03:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 19:20:21.901979
- Title: Distilling Autoregressive Models to Obtain High-Performance
Non-Autoregressive Solvers for Vehicle Routing Problems with Faster Inference
Speed
- Title(参考訳): 高速推論速度を有する車両走行問題に対する高性能非自己回帰解法のための蒸留自己回帰モデル
- Authors: Yubin Xiao, Di Wang, Boyang Li, Mingzhao Wang, Xuan Wu, Changliang
Zhou, You Zhou
- Abstract要約: 本稿では,低推論遅延を有する高性能NARモデルを得るための汎用的非自己回帰的知識蒸留法(GNARKD)を提案する。
我々は、GNARKDを広く採用されている3つのARモデルに適用して、合成および実世界の両方のインスタンスに対して、NAR VRPソルバを得る。
- 参考スコア(独自算出の注目度): 8.184624214651283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural construction models have shown promising performance for Vehicle
Routing Problems (VRPs) by adopting either the Autoregressive (AR) or
Non-Autoregressive (NAR) learning approach. While AR models produce
high-quality solutions, they generally have a high inference latency due to
their sequential generation nature. Conversely, NAR models generate solutions
in parallel with a low inference latency but generally exhibit inferior
performance. In this paper, we propose a generic Guided Non-Autoregressive
Knowledge Distillation (GNARKD) method to obtain high-performance NAR models
having a low inference latency. GNARKD removes the constraint of sequential
generation in AR models while preserving the learned pivotal components in the
network architecture to obtain the corresponding NAR models through knowledge
distillation. We evaluate GNARKD by applying it to three widely adopted AR
models to obtain NAR VRP solvers for both synthesized and real-world instances.
The experimental results demonstrate that GNARKD significantly reduces the
inference time (4-5 times faster) with acceptable performance drop (2-3\%). To
the best of our knowledge, this study is first-of-its-kind to obtain NAR VRP
solvers from AR ones through knowledge distillation.
- Abstract(参考訳): ニューラルネットワークモデルは、自動回帰(AR)または非自己回帰(NAR)学習アプローチを採用することで、車両ルーティング問題(VRP)に有望な性能を示す。
arモデルは高品質なソリューションを生み出すが、一般的にはシーケンシャルな生成によって高い推論レイテンシを持つ。
逆に、NARモデルは低い推論遅延で並列に解を生成するが、一般に性能は劣っている。
本稿では,低推論遅延を有する高性能NARモデルを得るための汎用的非自己回帰的知識蒸留法(GNARKD)を提案する。
GNARKDは、学習した中心成分をネットワークアーキテクチャに保存し、知識蒸留により対応するNARモデルを入手しながら、ARモデルの逐次生成の制約を取り除く。
我々は、GNARKDを広く採用されている3つのARモデルに適用して、合成および実世界の両方のインスタンスに対して、NAR VRPソルバを得る。
実験の結果、gnarkdは許容される性能低下(2-3\%)で推論時間を大幅に削減する(4~5倍高速)。
我々の知る限りでは、この研究は知識蒸留を通じてARからNAR VRPソルバを得るための第一種である。
関連論文リスト
- Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation [15.632419297059993]
非自己回帰(NAR)言語モデルは、ニューラルネットワーク翻訳(NMT)の低レイテンシで知られている。
NARと自己回帰モデルの間には大きな復号化空間があり、目的語間の不整合を正確に捉えるのが困難である。
本稿では,編集ベースNARモデルであるLevenshtein Transformerに強化学習(RL)を適用し,自己生成データを用いたRLが編集ベースNARモデルの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-05-02T13:39:28Z) - AMLNet: Adversarial Mutual Learning Neural Network for
Non-AutoRegressive Multi-Horizon Time Series Forecasting [4.911305944028228]
AMLNetは,オンライン知識蒸留手法を用いて,現実的な予測を実現する革新的なNARモデルである。
AMLNetは、ディープARデコーダとディープNARデコーダを協調的にトレーニングすることで、ARモデルとNARモデルの長所を活用する。
この知識伝達は、(1)教師モデルからのKD損失の寄与を動的に加重し、浅いNARデコーダがアンサンブルの多様性を組み込むことを可能にする結果駆動型KD、(2)モデルに隠された蒸留状態から貴重な洞察を抽出するために敵の訓練を利用するヒント駆動型KDの2つの主要なメカニズムによって促進される。
論文 参考訳(メタデータ) (2023-10-30T06:10:00Z) - A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:54:53Z) - Non-Autoregressive Machine Translation: It's Not as Fast as it Seems [84.47091735503979]
NARモデルに関する文献にみられる評価手法の欠陥を指摘する。
我々はNARモデルと他の広く使われている効率向上手法を比較した。
我々は,今後の作業において,より現実的で広範なNARモデルの評価を求める。
論文 参考訳(メタデータ) (2022-05-04T09:30:17Z) - Diformer: Directional Transformer for Neural Machine Translation [13.867255817435705]
自己回帰(AR)モデルと非自己回帰(NAR)モデルは、パフォーマンスとレイテンシにおいてそれぞれ優位である。
本稿では,ARとNARを3世代に融合した方向変換器(Diformer)を提案する。
4つのWMTベンチマークの実験では、ダイフォーマーは現在の統一モデリング作業より優れており、ARとNARデコーディングの両方で1.5 BLEUポイント以上である。
論文 参考訳(メタデータ) (2021-12-22T02:35:29Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - An EM Approach to Non-autoregressive Conditional Sequence Generation [49.11858479436565]
自己回帰(AR)モデルは条件付きシーケンス生成において支配的なアプローチである。
非自己回帰(NAR)モデルは、最近、すべての出力トークンを並列に生成することでレイテンシを低減するために提案されている。
本稿では,ARモデルとNARモデルの両方を統合期待最大化フレームワークで協調的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T20:58:57Z) - A Study of Non-autoregressive Model for Sequence Generation [147.89525760170923]
非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。
本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。