論文の概要: Intriguing Properties of Compression on Multilingual Models
- arxiv url: http://arxiv.org/abs/2211.02738v1
- Date: Fri, 4 Nov 2022 20:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-08 15:16:17.023953
- Title: Intriguing Properties of Compression on Multilingual Models
- Title(参考訳): 多言語モデルにおける圧縮の興味深い特性
- Authors: Kelechi Ogueji, Orevaoghene Ahia, Gbemileke Onilude, Sebastian
Gehrmann, Sara Hooker and Julia Kreutzer
- Abstract要約: 微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
- 参考スコア(独自算出の注目度): 17.06142742945346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual models are often particularly dependent on scaling to generalize
to a growing number of languages. Compression techniques are widely relied upon
to reconcile the growth in model size with real world resource constraints, but
compression can have a disparate effect on model performance for low-resource
languages. It is thus crucial to understand the trade-offs between scale,
multilingualism, and compression. In this work, we propose an experimental
framework to characterize the impact of sparsifying multilingual pre-trained
language models during fine-tuning. Applying this framework to mBERT named
entity recognition models across 40 languages, we find that compression confers
several intriguing and previously unknown generalization properties. In
contrast to prior findings, we find that compression may improve model
robustness over dense models. We additionally observe that under certain
sparsification regimes compression may aid, rather than disproportionately
impact the performance of low-resource languages.
- Abstract(参考訳): 多言語モデルは、増大する言語に一般化するスケーリングに依存することが多い。
圧縮技術は、実世界のリソース制約とモデルサイズの成長の調整に広く依存しているが、圧縮は低リソース言語のモデルパフォーマンスに異なる影響を与える可能性がある。
したがって、スケール、多言語主義、圧縮のトレードオフを理解することが重要である。
本研究では,微調整における多言語事前学習言語モデルの分散化の影響を特徴付ける実験フレームワークを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
従来の結果とは対照的に,圧縮は密度モデルよりもモデルロバスト性を向上させる可能性がある。
また,特定のスカラー化体制下では,低リソース言語の性能に不均等に影響を及ぼすのではなく,圧縮が有効である可能性が示唆された。
関連論文リスト
- What Happens When Small Is Made Smaller? Exploring the Impact of Compression on Small Data Pretrained Language Models [2.2871867623460216]
本稿では, AfriBERTa を用いた低リソース小データ言語モデルにおいて, プルーニング, 知識蒸留, 量子化の有効性について検討する。
実験のバッテリを用いて,圧縮が精度を超えるいくつかの指標のパフォーマンスに与える影響を評価する。
論文 参考訳(メタデータ) (2024-04-06T23:52:53Z) - Multilingual Brain Surgeon: Large Language Models Can be Compressed Leaving No Language Behind [14.433894552549337]
大規模言語モデル (LLMs) は自然言語処理の新しい時代を迎えたが、その巨大なサイズは実用性のために効果的な圧縮技術を必要としている。
本稿では,多言語LLM圧縮のための新しい校正データサンプリング手法であるMultilingual Brain Surgeon (MBS)を紹介する。
MBSは、モデルトレーニングデータセットの言語分布に比例して、様々な言語からの校正データをサンプリングすることで、既存の手法の英語中心の制限を克服する。
論文 参考訳(メタデータ) (2024-04-06T22:16:32Z) - Model Compression and Efficient Inference for Large Language Models: A
Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。
大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。
大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文 参考訳(メタデータ) (2024-02-15T06:58:30Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。