論文の概要: On Multilingual Encoder Language Model Compression for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2505.16956v1
- Date: Thu, 22 May 2025 17:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.50931
- Title: On Multilingual Encoder Language Model Compression for Low-Resource Languages
- Title(参考訳): 低リソース言語に対する多言語エンコーダ言語モデル圧縮について
- Authors: Daniil Gurgurov, Michal Gregor, Josef van Genabith, Simon Ostermann,
- Abstract要約: 本稿では,多言語エンコーダのみの言語モデルに対して,2段階の知識蒸留,構造化プルーニング,トランケーション,ボキャブラリトリミングを組み合わせる。
圧縮速度は最大92%で、4つの下流タスクで2-10%の限界性能低下しか達成できません。
特に、パフォーマンス劣化は教師モデルにおける言語固有のデータの量と相関し、より大きなデータセットはパフォーマンス損失を小さくする。
- 参考スコア(独自算出の注目度): 10.868526090169283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we combine two-step knowledge distillation, structured pruning, truncation, and vocabulary trimming for extremely compressing multilingual encoder-only language models for low-resource languages. Our novel approach systematically combines existing techniques and takes them to the extreme, reducing layer depth, feed-forward hidden size, and intermediate layer embedding size to create significantly smaller monolingual models while retaining essential language-specific knowledge. We achieve compression rates of up to 92% with only a marginal performance drop of 2-10% in four downstream tasks, including sentiment analysis, topic classification, named entity recognition, and part-of-speech tagging, across three low-resource languages. Notably, the performance degradation correlates with the amount of language-specific data in the teacher model, with larger datasets resulting in smaller performance losses. Additionally, we conduct extensive ablation studies to identify best practices for multilingual model compression using these techniques.
- Abstract(参考訳): 本稿では,低リソース言語のための多言語エンコーダのみの言語モデルに,2段階の知識蒸留,構造化プルーニング,トランケーション,語彙トリミングを組み合わせる。
我々の新しいアプローチは,既存の手法を体系的に組み合わせて極端に発展させ,層深度,フィードフォワードの隠蔽サイズ,中間層埋め込みサイズを低減し,言語固有の知識を維持しつつ,はるかに小さなモノリンガルモデルを生成する。
低リソース言語3言語を対象に,感情分析,トピック分類,名前付きエンティティ認識,パート・オブ・音声タグ付けを含む4つのダウンストリームタスクにおいて,最大92%の圧縮速度を2-10%の限界性能低下で達成した。
特に、パフォーマンス劣化は教師モデルにおける言語固有のデータの量と相関し、より大きなデータセットはパフォーマンス損失を小さくする。
さらに、これらの手法を用いて多言語モデル圧縮のベストプラクティスを特定するために、広範囲にわたるアブレーション研究を行っている。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Multilingual Brain Surgeon: Large Language Models Can be Compressed Leaving No Language Behind [14.433894552549337]
大規模言語モデル (LLMs) は自然言語処理の新しい時代を迎えたが、その巨大なサイズは実用性のために効果的な圧縮技術を必要としている。
本稿では,多言語LLM圧縮のための新しい校正データサンプリング手法であるMultilingual Brain Surgeon (MBS)を紹介する。
MBSは、モデルトレーニングデータセットの言語分布に比例して、様々な言語からの校正データをサンプリングすることで、既存の手法の英語中心の制限を克服する。
論文 参考訳(メタデータ) (2024-04-06T22:16:32Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Intriguing Properties of Compression on Multilingual Models [17.06142742945346]
微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
論文 参考訳(メタデータ) (2022-11-04T20:28:01Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。