論文の概要: Why Skip If You Can Combine: A Simple Knowledge Distillation Technique
for Intermediate Layers
- arxiv url: http://arxiv.org/abs/2010.03034v1
- Date: Tue, 6 Oct 2020 21:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:12:52.042450
- Title: Why Skip If You Can Combine: A Simple Knowledge Distillation Technique
for Intermediate Layers
- Title(参考訳): 中間層に簡単な知識蒸留技術が組み合わされば、なぜスキップできるのか?
- Authors: Yimeng Wu, Peyman Passban, Mehdi Rezagholizade, Qun Liu
- Abstract要約: 一般的な実践は、大規模で正確に訓練された教師ネットワーク(T)から、コンパクトな学生ネットワーク(S)に知識を抽出することである。
知識蒸留(KD)は,ほとんどの場合有用であるが,既存のKD技術は深部NMTエンジンには適さない可能性が示唆された。
本稿では、低リソース設定を目標とし、ポルトガル語、トルコ語、英語、ドイツ語の翻訳エンジンの評価を行う。
- 参考スコア(独自算出の注目度): 19.978117414534875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growth of computing power neural machine translation (NMT) models
also grow accordingly and become better. However, they also become harder to
deploy on edge devices due to memory constraints. To cope with this problem, a
common practice is to distill knowledge from a large and accurately-trained
teacher network (T) into a compact student network (S). Although knowledge
distillation (KD) is useful in most cases, our study shows that existing KD
techniques might not be suitable enough for deep NMT engines, so we propose a
novel alternative. In our model, besides matching T and S predictions we have a
combinatorial mechanism to inject layer-level supervision from T to S. In this
paper, we target low-resource settings and evaluate our translation engines for
Portuguese--English, Turkish--English, and English--German directions. Students
trained using our technique have 50% fewer parameters and can still deliver
comparable results to those of 12-layer teachers.
- Abstract(参考訳): コンピューティングパワーの増大に伴い、ニューラルネットワーク翻訳(NMT)モデルも成長し、より良くなっていく。
しかし、メモリの制約のため、エッジデバイスへのデプロイも困難になる。
この問題に対処するために、広く正確に訓練された教師ネットワーク(t)から知識をコンパクトな学生ネットワーク(s)に蒸留することが一般的である。
知識蒸留(KD)はほとんどの場合有用であるが,本研究は既存のKD技術が深部NMTエンジンに適さないことを示すため,新しい代替案を提案する。
本稿では、低リソース設定を目標とし、ポルトガル語、トルコ語、英語、ドイツ語の方向に対する翻訳エンジンの評価を行う。
この技術を使って訓練した学生はパラメータが50%少なく、12層教師に匹敵する結果が得られる。
関連論文リスト
- Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - An Empirical Study of Leveraging Knowledge Distillation for Compressing
Multilingual Neural Machine Translation Models [15.319668715349405]
本稿では,多言語ニューラルマシン翻訳(MNMT)モデルを圧縮するための知識蒸留に関する実証的研究を行う。
言語に依存しないKDアプローチでは、4-5倍小さいが3.5BLEUの性能低下に悩まされるモデルが得られることを示す。
我々は、KDを介してMNMTモデルを圧縮することは困難であり、さらなる研究の膨大な範囲を示唆している。
論文 参考訳(メタデータ) (2023-04-19T02:57:55Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth
Mover's Distance [25.229624487344186]
高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。
本稿では,多層多層膜マッピングに基づく新しいBERT蒸留法を提案する。
我々のモデルは様々なNLPタスクに対して異なる教師層から適応的に学習することができる。
論文 参考訳(メタデータ) (2020-10-13T02:53:52Z) - Multiscale Collaborative Deep Models for Neural Machine Translation [40.52423993051359]
従来よりもはるかに深いNMTモデルのトレーニングを容易にするために,MultiScale Collaborative (MSC) フレームワークを提案する。
我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。
我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNTTモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-04-29T08:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。