論文の概要: What Do Compressed Multilingual Machine Translation Models Forget?
- arxiv url: http://arxiv.org/abs/2205.10828v1
- Date: Sun, 22 May 2022 13:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 23:54:54.474279
- Title: What Do Compressed Multilingual Machine Translation Models Forget?
- Title(参考訳): 圧縮多言語機械翻訳モデルとは何か?
- Authors: Alireza Mohammadshahi, Vassilina Nikoulina, Alexandre Berard, Caroline
Brun, James Henderson, Laurent Besacier
- Abstract要約: 様々な言語群と意味的特徴に対するMNMT(Multilingual Neural Machine Translation Model)に対する圧縮手法の影響を解析する。
実験の結果,低表現言語の性能は著しく低下する一方,平均BLEUはわずかに低下することがわかった。
この圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
- 参考スコア(独自算出の注目度): 102.50127671423752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, very large pre-trained models achieve state-of-the-art results in
various natural language processing (NLP) tasks, but their size makes it more
challenging to apply them in resource-constrained environments. Compression
techniques allow to drastically reduce the size of the model and therefore its
inference time with negligible impact on top-tier metrics. However, the general
performance hides a drastic performance drop on under-represented features,
which could result in the amplification of biases encoded by the model. In this
work, we analyze the impacts of compression methods on Multilingual Neural
Machine Translation models (MNMT) for various language groups and semantic
features by extensive analysis of compressed models on different NMT
benchmarks, e.g. FLORES-101, MT-Gender, and DiBiMT. Our experiments show that
the performance of under-represented languages drops significantly, while the
average BLEU metric slightly decreases. Interestingly, the removal of noisy
memorization with the compression leads to a significant improvement for some
medium-resource languages. Finally, we demonstrate that the compression
amplifies intrinsic gender and semantic biases, even in high-resource
languages.
- Abstract(参考訳): 近年,自然言語処理(nlp)タスクにおいて,非常に大規模に事前学習されたモデルが最先端の成果を達成している。
圧縮技術はモデルのサイズを劇的に削減し、その推論時間をトップクラスのメトリクスに無視できない影響を与える。
しかし、一般的な性能は、表現されていない特徴に劇的な性能低下を隠蔽し、モデルによって符号化されたバイアスの増幅をもたらす可能性がある。
本研究では,様々な言語群に対するMNMT(Multilingual Neural Machine Translation Model)に対する圧縮手法の影響を,FLORES-101,MT-Gender,DiBiMTなどの異なるNMTベンチマーク上での圧縮モデルの広範な解析により解析する。
実験の結果,低表現言語の性能は著しく低下し,平均bleuメトリックはわずかに低下した。
興味深いことに、圧縮によるノイズの記憶の除去は、中規模の言語で顕著な改善をもたらす。
最後に,この圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
関連論文リスト
- What Happens When Small Is Made Smaller? Exploring the Impact of Compression on Small Data Pretrained Language Models [2.2871867623460216]
本稿では, AfriBERTa を用いた低リソース小データ言語モデルにおいて, プルーニング, 知識蒸留, 量子化の有効性について検討する。
実験のバッテリを用いて,圧縮が精度を超えるいくつかの指標のパフォーマンスに与える影響を評価する。
論文 参考訳(メタデータ) (2024-04-06T23:52:53Z) - Multilingual Brain Surgeon: Large Language Models Can be Compressed Leaving No Language Behind [14.433894552549337]
大規模言語モデル (LLMs) は自然言語処理の新しい時代を迎えたが、その巨大なサイズは実用性のために効果的な圧縮技術を必要としている。
本稿では,多言語LLM圧縮のための新しい校正データサンプリング手法であるMultilingual Brain Surgeon (MBS)を紹介する。
MBSは、モデルトレーニングデータセットの言語分布に比例して、様々な言語からの校正データをサンプリングすることで、既存の手法の英語中心の制限を克服する。
論文 参考訳(メタデータ) (2024-04-06T22:16:32Z) - Intriguing Properties of Compression on Multilingual Models [17.06142742945346]
微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
論文 参考訳(メタデータ) (2022-11-04T20:28:01Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。