論文の概要: Collective Wisdom: Improving Low-resource Neural Machine Translation
using Adaptive Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2010.05445v1
- Date: Mon, 12 Oct 2020 04:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:31:19.272699
- Title: Collective Wisdom: Improving Low-resource Neural Machine Translation
using Adaptive Knowledge Distillation
- Title(参考訳): collective wisdom:adaptive knowledge distillationを用いた低リソースニューラルマシン翻訳の改善
- Authors: Fahimeh Saleh, Wray Buntine, Gholamreza Haffari
- Abstract要約: 並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。
そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。
IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 42.38435539241788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scarcity of parallel sentence-pairs poses a significant hurdle for training
high-quality Neural Machine Translation (NMT) models in bilingually
low-resource scenarios. A standard approach is transfer learning, which
involves taking a model trained on a high-resource language-pair and
fine-tuning it on the data of the low-resource MT condition of interest.
However, it is not clear generally which high-resource language-pair offers the
best transfer learning for the target MT setting. Furthermore, different
transferred models may have complementary semantic and/or syntactic strengths,
hence using only one model may be sub-optimal. In this paper, we tackle this
problem using knowledge distillation, where we propose to distill the knowledge
of ensemble of teacher models to a single student model. As the quality of
these teacher models varies, we propose an effective adaptive knowledge
distillation approach to dynamically adjust the contribution of the teacher
models during the distillation process. Experiments on transferring from a
collection of six language pairs from IWSLT to five low-resource language-pairs
from TED Talks demonstrate the effectiveness of our approach, achieving up to
+0.9 BLEU score improvement compared to strong baselines.
- Abstract(参考訳): 並列文ペアの不足は、バイリンガル的に低リソースシナリオで高品質のニューラルマシン翻訳(nmt)モデルをトレーニングする上で大きな障害となる。
標準的なアプローチはトランスファー・ラーニングであり、高リソースの言語ペアでトレーニングされたモデルを低リソースのmt条件のデータに微調整する。
しかし、どの高リソース言語ペアがターゲットMT設定に最適な転送学習を提供するのかは、一般には明らかになっていない。
さらに、異なる伝達モデルには相補的な意味的および/または構文的強みがあるため、1つのモデルのみを使用することが最適となる。
本稿では,知識蒸留を用いてこの問題に対処し,教師モデルのアンサンブルの知識を単一学生モデルに蒸留することを提案する。
これらの教師モデルの質が変化するにつれて, 教員モデルの蒸留過程における貢献度を動的に調整する効果的な適応的知識蒸留手法を提案する。
IWSLTからTED Talksから5つの低リソース言語ペアへ6つの言語ペアのコレクションを移行する実験は、強いベースラインに比べて最大0.9BLEUスコアの改善を達成し、我々のアプローチの有効性を実証する。
関連論文リスト
- MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - UM4: Unified Multilingual Multiple Teacher-Student Model for
Zero-Resource Neural Machine Translation [102.04003089261761]
MNMT(Multilingual Neural Machine Translation)は、すべての言語で共有セマンティック空間を用いたワンパス翻訳を可能にする。
NMTのための統一多言語多言語学習モデル(UM4)を提案する。
本手法は,ゼロリソース翻訳の学生モデルを指導するために,ソース・教師,ターゲット・教師,ピボット・教師のモデルを統一する。
論文 参考訳(メタデータ) (2022-07-11T14:22:59Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。