論文の概要: Lifting the Curse of Multilinguality by Pre-training Modular
Transformers
- arxiv url: http://arxiv.org/abs/2205.06266v1
- Date: Thu, 12 May 2022 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:47:29.486443
- Title: Lifting the Curse of Multilinguality by Pre-training Modular
Transformers
- Title(参考訳): モジュール変換器の事前学習による多言語性曲線の解離
- Authors: Jonas Pfeiffer, Naman Goyal, Xi Victoria Lin, Xian Li, James Cross,
Sebastian Riedel, Mikel Artetxe
- Abstract要約: 多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
- 参考スコア(独自算出の注目度): 72.46919537293068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual pre-trained models are known to suffer from the curse of
multilinguality, which causes per-language performance to drop as they cover
more languages. We address this issue by introducing language-specific modules,
which allows us to grow the total capacity of the model, while keeping the
total number of trainable parameters per language constant. In contrast with
prior work that learns language-specific components post-hoc, we pre-train the
modules of our Cross-lingual Modular (X-Mod) models from the start. Our
experiments on natural language inference, named entity recognition and
question answering show that our approach not only mitigates the negative
interference between languages, but also enables positive transfer, resulting
in improved monolingual and cross-lingual performance. Furthermore, our
approach enables adding languages post-hoc with no measurable drop in
performance, no longer limiting the model usage to the set of pre-trained
languages.
- Abstract(参考訳): 多言語事前学習モデルは多言語間のパフォーマンスを低下させる多言語性の呪いに苦しむことが知られている。
言語固有のモジュールを導入することでこの問題に対処し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できる。
言語固有のコンポーネントをポストホックで学習する以前の作業とは対照的に、私たちは最初から言語間モジュール(X-Mod)モデルのモジュールを事前訓練しています。
自然言語推論,名前付きエンティティ認識,質問応答実験により,言語間の負の干渉を緩和するだけでなく,肯定的な伝達が可能となり,モノリンガルとクロスランガルのパフォーマンスが向上することが示された。
さらに,本手法では,事前学習された言語群にモデルの使用を制限せず,性能の計測可能な低下を伴わない言語の追加が可能となった。
関連論文リスト
- Match the Script, Adapt if Multilingual: Analyzing the Effect of
Multilingual Pretraining on Cross-lingual Transferability [26.553524219316188]
事前訓練された多言語モデルは、目に見えない言語でもゼロショット学習を可能にする。
事前学習中の言語に対するゼロショット学習に事前学習言語数がどのような影響を及ぼすかは明らかでない。
論文 参考訳(メタデータ) (2022-03-21T06:52:38Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - On the ability of monolingual models to learn language-agnostic
representations [2.604227467422371]
異なる言語で事前訓練および微調整された単言語モデルが競合性能を実現することを示す。
例えば、ドイツ語やポルトガル語のような遠方の言語で事前訓練されたモデルは、英語のタスクでも同様に機能する。
論文 参考訳(メタデータ) (2021-09-04T22:09:44Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。