論文の概要: What Do Compressed Multilingual Machine Translation Models Forget?
- arxiv url: http://arxiv.org/abs/2205.10828v4
- Date: Tue, 27 Jun 2023 09:34:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 18:17:59.420313
- Title: What Do Compressed Multilingual Machine Translation Models Forget?
- Title(参考訳): 圧縮多言語機械翻訳モデルとは何か?
- Authors: Alireza Mohammadshahi, Vassilina Nikoulina, Alexandre Berard, Caroline
Brun, James Henderson, Laurent Besacier
- Abstract要約: 平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
- 参考スコア(独自算出の注目度): 102.50127671423752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, very large pre-trained models achieve state-of-the-art results in
various natural language processing (NLP) tasks, but their size makes it more
challenging to apply them in resource-constrained environments. Compression
techniques allow to drastically reduce the size of the models and therefore
their inference time with negligible impact on top-tier metrics. However, the
general performance averaged across multiple tasks and/or languages may hide a
drastic performance drop on under-represented features, which could result in
the amplification of biases encoded by the models. In this work, we assess the
impact of compression methods on Multilingual Neural Machine Translation models
(MNMT) for various language groups, gender, and semantic biases by extensive
analysis of compressed models on different machine translation benchmarks, i.e.
FLORES-101, MT-Gender, and DiBiMT. We show that the performance of
under-represented languages drops significantly, while the average BLEU metric
only slightly decreases. Interestingly, the removal of noisy memorization with
compression leads to a significant improvement for some medium-resource
languages. Finally, we demonstrate that compression amplifies intrinsic gender
and semantic biases, even in high-resource languages. Code:
https://github.com/alirezamshi/bias-compressedMT
- Abstract(参考訳): 近年,自然言語処理(nlp)タスクにおいて,非常に大規模に事前学習されたモデルが最先端の成果を達成している。
圧縮技術は、モデルのサイズを劇的に削減し、その推論時間をトップクラスのメトリクスに無視できない影響を与える。
しかし、複数のタスクや言語で平均される一般的な性能は、表現されていない特徴に劇的な性能低下を隠蔽し、モデルによって符号化されたバイアスの増幅をもたらす可能性がある。
本研究では,様々な言語群,性別,意味バイアスに対する多言語ニューラルマシン翻訳モデル(mnmt)に対する圧縮手法の影響を,異なる機械翻訳ベンチマークにおける圧縮モデルの広範囲な解析,すなわちフロレス-101,mt-gender,dibimtを用いて評価する。
低表現言語のパフォーマンスは大幅に低下するが、平均bleuメトリックはわずかに低下する。
興味深いことに、圧縮によるノイズのある記憶の除去は、中規模の言語で大幅に改善される。
最後に、高速な言語であっても、圧縮は固有の性別や意味バイアスを増幅することを示した。
コード: https://github.com/alirezamshi/bias-compressedmt
関連論文リスト
- What Happens When Small Is Made Smaller? Exploring the Impact of Compression on Small Data Pretrained Language Models [2.2871867623460216]
本稿では, AfriBERTa を用いた低リソース小データ言語モデルにおいて, プルーニング, 知識蒸留, 量子化の有効性について検討する。
実験のバッテリを用いて,圧縮が精度を超えるいくつかの指標のパフォーマンスに与える影響を評価する。
論文 参考訳(メタデータ) (2024-04-06T23:52:53Z) - Multilingual Brain Surgeon: Large Language Models Can be Compressed Leaving No Language Behind [14.433894552549337]
大規模言語モデル (LLMs) は自然言語処理の新しい時代を迎えたが、その巨大なサイズは実用性のために効果的な圧縮技術を必要としている。
本稿では,多言語LLM圧縮のための新しい校正データサンプリング手法であるMultilingual Brain Surgeon (MBS)を紹介する。
MBSは、モデルトレーニングデータセットの言語分布に比例して、様々な言語からの校正データをサンプリングすることで、既存の手法の英語中心の制限を克服する。
論文 参考訳(メタデータ) (2024-04-06T22:16:32Z) - Intriguing Properties of Compression on Multilingual Models [17.06142742945346]
微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
論文 参考訳(メタデータ) (2022-11-04T20:28:01Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。