論文の概要: Autoregressive Knowledge Distillation through Imitation Learning
- arxiv url: http://arxiv.org/abs/2009.07253v2
- Date: Thu, 29 Oct 2020 00:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:31:51.667650
- Title: Autoregressive Knowledge Distillation through Imitation Learning
- Title(参考訳): 模倣学習による自己回帰的知識蒸留
- Authors: Alexander Lin, Jeremy Wohlwend, Howard Chen, and Tao Lei
- Abstract要約: 我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
- 参考スコア(独自算出の注目度): 70.12862707908769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of autoregressive models on natural language generation tasks
has dramatically improved due to the adoption of deep, self-attentive
architectures. However, these gains have come at the cost of hindering
inference speed, making state-of-the-art models cumbersome to deploy in
real-world, time-sensitive settings. We develop a compression technique for
autoregressive models that is driven by an imitation learning perspective on
knowledge distillation. The algorithm is designed to address the exposure bias
problem. On prototypical language generation tasks such as translation and
summarization, our method consistently outperforms other distillation
algorithms, such as sequence-level knowledge distillation. Student models
trained with our method attain 1.4 to 4.8 BLEU/ROUGE points higher than those
trained from scratch, while increasing inference speed by up to 14 times in
comparison to the teacher model.
- Abstract(参考訳): 自然言語生成タスクにおける自己回帰モデルの性能は、深い自己認識アーキテクチャの採用により劇的に向上した。
しかし、これらの上昇は推論速度を妨げ、最先端のモデルが現実の時間に敏感な環境でのデプロイを困難にしている。
知識蒸留に関する模倣学習の視点によって駆動される自己回帰モデルのための圧縮手法を開発した。
このアルゴリズムは露出バイアス問題に対処するために設計されている。
翻訳や要約などの原型言語生成タスクでは,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムよりも一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
関連論文リスト
- MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation [17.27883003990266]
VLN(Vision-and-Language Navigation)は、Embodied AIのコアタスクである。
本稿では,2段階の知識蒸留フレームワークを導入し,学生モデルMiniVLNについて述べる。
その結果,2段階蒸留法は,教師モデルと学生モデルのパフォーマンスギャップを狭めるのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:54:54Z) - Continual Learning of Diffusion Models with Generative Distillation [34.52513912701778]
拡散モデルは画像合成における最先端性能を達成する強力な生成モデルである。
本稿では,拡散モデルの全逆過程を除去する生成蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-23T14:33:03Z) - Education distillation:getting student models to learn in shcools [15.473668050280304]
本稿では,知識蒸留における動的漸進学習を紹介する。
完全学生モデルから分割した断片化された学生モデルを下級モデルとして扱うことが提案されている。
論文 参考訳(メタデータ) (2023-11-23T05:20:18Z) - Can a student Large Language Model perform as well as it's teacher? [0.0]
知識蒸留は、高容量の「教師」モデルから流線形の「学生」モデルに知識を伝達することを目的としている。
本稿では,知識蒸留のパラダイムについて概観する。
論文 参考訳(メタデータ) (2023-10-03T20:34:59Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:54:53Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。