論文の概要: Load What You Need: Smaller Versions of Multilingual BERT
- arxiv url: http://arxiv.org/abs/2010.05609v1
- Date: Mon, 12 Oct 2020 11:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:22:06.566092
- Title: Load What You Need: Smaller Versions of Multilingual BERT
- Title(参考訳): 必要なものはロードする:マルチ言語BERTのより小さなバージョン
- Authors: Amine Abdaoui, Camille Pradel and Gr\'egoire Sigel
- Abstract要約: 本稿では,XNLIデータセット上での多言語BERTのより小さなバージョンの評価を行う。
パラメータの総数の45%を削減しつつ、同等の結果を保持する小さなモデルを生成することができます。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Transformer-based models are achieving state-of-the-art results
on a variety of Natural Language Processing data sets. However, the size of
these models is often a drawback for their deployment in real production
applications. In the case of multilingual models, most of the parameters are
located in the embeddings layer. Therefore, reducing the vocabulary size should
have an important impact on the total number of parameters. In this paper, we
propose to generate smaller models that handle fewer number of languages
according to the targeted corpora. We present an evaluation of smaller versions
of multilingual BERT on the XNLI data set, but we believe that this method may
be applied to other multilingual transformers. The obtained results confirm
that we can generate smaller models that keep comparable results, while
reducing up to 45% of the total number of parameters. We compared our models
with DistilmBERT (a distilled version of multilingual BERT) and showed that
unlike language reduction, distillation induced a 1.7% to 6% drop in the
overall accuracy on the XNLI data set. The presented models and code are
publicly available.
- Abstract(参考訳): 事前学習されたトランスフォーマーベースのモデルは、さまざまな自然言語処理データセットで最先端の結果を得ています。
しかし、これらのモデルのサイズは、実際の実運用アプリケーションへのデプロイの欠点となることが多い。
多言語モデルの場合、パラメータのほとんどは埋め込み層にある。
したがって、語彙サイズの縮小はパラメータの総数に重要な影響を与えるべきである。
本稿では,対象コーパスに基づいて,少ない言語数を扱うより小さなモデルを生成することを提案する。
本稿では,xnliデータセットにおける多言語bertの小型化について検討するが,この手法は他の多言語トランスフォーマーに適用できると考えられる。
得られた結果から,パラメータの総数の最大45%を削減しつつ,比較結果を保持する小さなモデルを生成することができることを確認した。
また,本モデルとDistilmBERT(多言語BERTの蒸留版)を比較し,XNLIデータセットの総合的精度を1.7%から6%低下させた。
提示されたモデルとコードは公開されている。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Distilling Efficient Language-Specific Models for Cross-Lingual Transfer [75.32131584449786]
多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:52Z) - Bactrian-X: Multilingual Replicable Instruction-Following Models with
Low-Rank Adaptation [40.695782736177264]
Bactrian-Xは52言語にわたる340万の命令応答対の包括的な多言語並列データセットである。
大規模言語モデルとシームレスに統合可能な軽量なコンポーネントであるローランク適応(LoRA)を用いて,アダプタセットをトレーニングする。
様々な多言語評価設定の実験では、バニラモデルと既存の命令調整モデルの両方において、バクタリアンXによるLoRAベースのトレーニングから派生したモデルが優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-24T10:50:31Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Model Selection for Cross-Lingual Transfer [15.197350103781739]
本稿では,モデル選択のための機械学習手法を提案する。
大規模な実験では、この手法は205言語にわたる英語の検証データよりも優れたモデルを選択する。
論文 参考訳(メタデータ) (2020-10-13T02:36:48Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。