論文の概要: Selective Knowledge Distillation for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2105.12967v1
- Date: Thu, 27 May 2021 06:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:42:13.223993
- Title: Selective Knowledge Distillation for Neural Machine Translation
- Title(参考訳): 神経機械翻訳のための選択的知識蒸留
- Authors: Fusheng Wang, Jianhao Yan, Fandong Meng, Jie Zhou
- Abstract要約: 知識蒸留は、各トレーニングサンプルについて教師モデルの知識を伝達することにより、モデルの性能を高めるために広く適用されている。
従来の研究は、教師の知識を伝達する媒体として機能する、これらのサンプル間の異なる影響とつながりについてはほとんど議論しなかった。
本稿では, 蒸留に適した試料を選択するために, バッチレベルとグローバルレベルの2つの簡易かつ効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 24.493705133103443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) models achieve state-of-the-art performance
on many translation benchmarks. As an active research field in NMT, knowledge
distillation is widely applied to enhance the model's performance by
transferring teacher model's knowledge on each training sample. However,
previous work rarely discusses the different impacts and connections among
these samples, which serve as the medium for transferring teacher knowledge. In
this paper, we design a novel protocol that can effectively analyze the
different impacts of samples by comparing various samples' partitions. Based on
above protocol, we conduct extensive experiments and find that the teacher's
knowledge is not the more, the better. Knowledge over specific samples may even
hurt the whole performance of knowledge distillation. Finally, to address these
issues, we propose two simple yet effective strategies, i.e., batch-level and
global-level selections, to pick suitable samples for distillation. We evaluate
our approaches on two large-scale machine translation tasks, WMT'14
English->German and WMT'19 Chinese->English. Experimental results show that our
approaches yield up to +1.28 and +0.89 BLEU points improvements over the
Transformer baseline, respectively.
- Abstract(参考訳): ニューラル機械翻訳(NMT)モデルは、多くの翻訳ベンチマークで最先端のパフォーマンスを達成する。
nmtの活発な研究分野として,教師モデルの知識を各トレーニングサンプルに移し,モデルの性能を高めるために知識蒸留が広く適用されている。
しかし,教師の知識を伝達する媒体として機能する,これらのサンプルの異なる影響と相互関係について論じることは稀である。
本稿では,サンプルの分割を比較することで,サンプルの異なる影響を効果的に分析できる新しいプロトコルを設計する。
以上のプロトコルに基づき,広範な実験を行い,教師の知識が多ければ多いほどよいものではないことを発見した。
特定のサンプルに関する知識は、知識蒸留の性能を損なう可能性がある。
最後に, これらの問題に対処するため, 蒸留に適した試料を選択するために, バッチレベルとグローバルレベルの2つの簡易かつ効果的な方法を提案する。
我々は,WMT'14ドイツ語とWMT'19中国語の2つの大規模機械翻訳タスクに対するアプローチを評価する。
実験結果から,Transformer ベースラインに対する +1.28 および +0.89 BLEU 点の改善が得られた。
関連論文リスト
- Don't Throw Away Data: Better Sequence Knowledge Distillation [60.60698363739434]
本稿では,知識蒸留訓練において,最小ベイズリスク(MBR)の復号化をより厳密に行うことを目的とする。
英語からドイツ語,英語,日本語への翻訳実験では,強いベースライン法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-07-15T06:11:18Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - A Comparative Analysis of Task-Agnostic Distillation Methods for
Compressing Transformer Language Models [5.818750175599656]
トランスフォーマー言語モデルのタスクに依存しない(汎用的な)蒸留法を再現し,比較し,解析する。
我々の研究対象は、出力分布(OD)転送、様々なレイヤマッピング戦略による隠れ状態(HS)転送、MiniLMv2に基づくマルチヘッドアテンション(MHA)転送である。
論文 参考訳(メタデータ) (2023-10-13T01:00:15Z) - Accurate Knowledge Distillation with n-best Reranking [2.9526110883017433]
我々は,n-best re rankを利用してシーケンスレベル知識蒸留を強化することを提案する(Kim and Rush, 2016)。
我々は、様々な帰納バイアス、客観的関数またはアーキテクチャを持つ多種多様なモデルの集合を活用し、公開可能ないくつかの大きな言語モデルを含む、ラベルとして最高の仮説を選択する。
その結果,n-bestリランカが生成した擬似ラベルを用いることで,より正確な学生モデルが得られた。
論文 参考訳(メタデータ) (2023-05-20T01:53:03Z) - Life-long Learning for Multilingual Neural Machine Translation with
Knowledge Distillation [48.96946395851039]
MNMT(Multilingual Neural Machine Translation)の一般的なシナリオは、各翻訳タスクが逐次的に到着し、以前のタスクのトレーニングデータが利用できないことである。
従来のモデル(教師)と新しいタスクから多言語出力を共同学習するための多言語蒸留法を提案する。
12の翻訳タスクに関する実験結果から,提案手法は従来の知識をより強化し,CFを著しく緩和できることが示された。
論文 参考訳(メタデータ) (2022-12-06T07:36:16Z) - Exploiting Curriculum Learning in Unsupervised Neural Machine
Translation [28.75229367700697]
複数の粒度から擬似バイテキストを徐々に活用するカリキュラム学習手法を提案する。
WMT 14 En-Fr, WMT 16 En-De, WMT 16 En-Ro, LDC En-Zh 翻訳タスクの実験結果から,提案手法はより高速な収束速度で一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2021-09-23T07:18:06Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。