論文の概要: Life-long Learning for Multilingual Neural Machine Translation with
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2212.02800v1
- Date: Tue, 6 Dec 2022 07:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:32:11.101978
- Title: Life-long Learning for Multilingual Neural Machine Translation with
Knowledge Distillation
- Title(参考訳): 知識蒸留による多言語ニューラルマシン翻訳の生涯学習
- Authors: Yang Zhao, Junnan Zhu, Lu Xiang, Jiajun Zhang, Yu Zhou, Feifei Zhai,
and Chengqing Zong
- Abstract要約: MNMT(Multilingual Neural Machine Translation)の一般的なシナリオは、各翻訳タスクが逐次的に到着し、以前のタスクのトレーニングデータが利用できないことである。
従来のモデル(教師)と新しいタスクから多言語出力を共同学習するための多言語蒸留法を提案する。
12の翻訳タスクに関する実験結果から,提案手法は従来の知識をより強化し,CFを著しく緩和できることが示された。
- 参考スコア(独自算出の注目度): 48.96946395851039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common scenario of Multilingual Neural Machine Translation (MNMT) is that
each translation task arrives in a sequential manner, and the training data of
previous tasks is unavailable. In this scenario, the current methods suffer
heavily from catastrophic forgetting (CF). To alleviate the CF, we investigate
knowledge distillation based life-long learning methods. Specifically, in
one-tomany scenario, we propose a multilingual distillation method to make the
new model (student) jointly learn multilingual output from old model (teacher)
and new task. In many-to one scenario, we find that direct distillation faces
the extreme partial distillation problem, and we propose two different methods
to address it: pseudo input distillation and reverse teacher distillation. The
experimental results on twelve translation tasks show that the proposed methods
can better consolidate the previous knowledge and sharply alleviate the CF.
- Abstract(参考訳): MNMT(Multilingual Neural Machine Translation)の一般的なシナリオは、各翻訳タスクが逐次的に到着し、以前のタスクのトレーニングデータが利用できないことである。
このシナリオでは、現在の手法は破滅的な忘れること(cf)に苦しむ。
CFを緩和するために,知識蒸留に基づく生涯学習手法を検討する。
具体的には,一対一のシナリオにおいて,新モデル(学生)が旧モデル(教師)と新タスクから多言語出力を共同学習する多言語蒸留法を提案する。
多くの場合, 直接蒸留は極端部分蒸留問題に直面しており, 擬似入力蒸留と逆教師蒸留という2つの異なる手法を提案する。
12の翻訳タスクに関する実験結果から,提案手法は従来の知識をより強化し,CFを著しく緩和できることが示された。
関連論文リスト
- Don't Throw Away Data: Better Sequence Knowledge Distillation [60.60698363739434]
本稿では,知識蒸留訓練において,最小ベイズリスク(MBR)の復号化をより厳密に行うことを目的とする。
英語からドイツ語,英語,日本語への翻訳実験では,強いベースライン法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-07-15T06:11:18Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Sentence-Level or Token-Level? A Comprehensive Study on Knowledge Distillation [25.58020699235669]
知識蒸留は、教師モデルから学生モデルに知識を伝達するものであり、ニューラルネットワーク翻訳において強力な技術として現れている。
本研究では,より複雑な目的(すなわち分布)を持つトークンレベルの蒸留が,単純なシナリオに適していると主張している。
本稿では,ゲーティング機構によるトークンレベルの蒸留と文レベルの蒸留を組み合わせた新しいハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T08:29:56Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Distilling Efficient Language-Specific Models for Cross-Lingual Transfer [75.32131584449786]
多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:52Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Towards Developing a Multilingual and Code-Mixed Visual Question
Answering System by Knowledge Distillation [20.33235443471006]
本稿では,英語ビジョンモデル(教師)を,等しく効果的な多言語・コード混合モデル(学生)に拡張する知識蒸留手法を提案する。
また、大規模な多言語およびコード混合VQAデータセットを11の異なる言語セットアップで作成します。
実験結果と深部分析により,11種類の言語セットアップ上で,事前学習した言語ビジョンモデルに対して提案したVQAモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-10T03:47:29Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Selective Knowledge Distillation for Neural Machine Translation [24.493705133103443]
知識蒸留は、各トレーニングサンプルについて教師モデルの知識を伝達することにより、モデルの性能を高めるために広く適用されている。
従来の研究は、教師の知識を伝達する媒体として機能する、これらのサンプル間の異なる影響とつながりについてはほとんど議論しなかった。
本稿では, 蒸留に適した試料を選択するために, バッチレベルとグローバルレベルの2つの簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-27T06:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。