論文の概要: Towards Understanding and Improving Knowledge Distillation for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2305.08096v2
- Date: Wed, 17 Jul 2024 08:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 23:50:47.879580
- Title: Towards Understanding and Improving Knowledge Distillation for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳における知識蒸留の理解と改善に向けて
- Authors: Songming Zhang, Yunlong Liang, Shuaibo Wang, Wenjuan Han, Jian Liu, Jinan Xu, Yufeng Chen,
- Abstract要約: この知識は,教師のトップ1の予測から得られたものである。
我々はtextbfTop-1 textbfInformation textbfEnhanced textbfKnowledge textbfDistillation (TIE-KD) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 59.31690622031927
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge distillation (KD) is a promising technique for model compression in neural machine translation. However, where the knowledge hides in KD is still not clear, which may hinder the development of KD. In this work, we first unravel this mystery from an empirical perspective and show that the knowledge comes from the top-1 predictions of teachers, which also helps us build a potential connection between word- and sequence-level KD. Further, we point out two inherent issues in vanilla word-level KD based on this finding. Firstly, the current objective of KD spreads its focus to whole distributions to learn the knowledge, yet lacks special treatment on the most crucial top-1 information. Secondly, the knowledge is largely covered by the golden information due to the fact that most top-1 predictions of teachers overlap with ground-truth tokens, which further restricts the potential of KD. To address these issues, we propose a novel method named \textbf{T}op-1 \textbf{I}nformation \textbf{E}nhanced \textbf{K}nowledge \textbf{D}istillation (TIE-KD). Specifically, we design a hierarchical ranking loss to enforce the learning of the top-1 information from the teacher. Additionally, we develop an iterative KD procedure to infuse more additional knowledge by distilling on the data without ground-truth targets. Experiments on WMT'14 English-German, WMT'14 English-French and WMT'16 English-Romanian demonstrate that our method can respectively boost Transformer$_{base}$ students by +1.04, +0.60 and +1.11 BLEU scores and significantly outperform the vanilla word-level KD baseline. Besides, our method shows higher generalizability on different teacher-student capacity gaps than existing KD techniques.
- Abstract(参考訳): 知識蒸留(KD)はニューラルマシン翻訳におけるモデル圧縮の有望な技術である。
しかし、KDの知識がどこに隠されているのかはまだ明らかではないため、KDの発展を妨げる可能性がある。
本研究では、まずこの謎を経験的観点から解き出し、その知識が教師のトップ1の予測から得られることを示し、また、単語とシーケンスレベルのKDの間の潜在的なつながりを構築するのにも役立ちます。
さらに,バニラ語レベルのKDには,この発見に基づく2つの固有の問題点が指摘されている。
第一に、KDの現在の目的は、その焦点を知識を学ぶために全分布に広げるが、最も重要なトップ1情報に対する特別な扱いを欠いている。
第二に、この知識は、教師の上位1人の予測が、KDの可能性をさらに制限する地道なトークンと重複しているという事実から、金の情報によっておおむねカバーされている。
これらの問題に対処するために、新しい方法である \textbf{T}op-1 \textbf{I}nformation \textbf{E}nhanced \textbf{K}nowledge \textbf{D}istillation (TIE-KD)を提案する。
具体的には、教師からトップ1情報の学習を強制するために、階層的なランキングの損失を設計する。
さらに,本手法は,地中目標を満たさずにデータに蒸留することで,さらなる知識を注入する反復的なKD法を開発した。
WMT'14英語-ドイツ語、WMT'14英語-フランス語、WMT'16英語-ルーマニア語の実験では、我々の手法がTransformer$_{base}$ studentsを+1.04, +0.60, +1.11BLEUスコアで向上させ、バニラ語レベルのKDベースラインを著しく上回ることを示した。
さらに,本手法は,既存のKD手法よりも,教師と生徒の容量ギャップの一般化性が高いことを示す。
関連論文リスト
- Knowledge From the Dark Side: Entropy-Reweighted Knowledge Distillation
for Balanced Knowledge Transfer [1.2606200500489302]
蒸留(KD)は、より大きな「教師」モデルからの知識を学生に伝達する。
ERKDは教師の予測においてエントロピーを用いてKD損失を標本的に再重み付けする。
私たちのコードはhttps://github.com/cpsu00/ER-KD.comで公開されています。
論文 参考訳(メタデータ) (2023-11-22T08:34:33Z) - Knowledge Distillation Layer that Lets the Student Decide [6.689381216751284]
2つの異なる能力でKDを改善する学習可能なKD層を提案する。
一 教師の知識の活用の仕方を学び、ニュアンス情報を破棄し、及び、伝達された知識をより深めていくこと。
論文 参考訳(メタデータ) (2023-09-06T09:05:03Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。