論文の概要: How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2012.15613v1
- Date: Thu, 31 Dec 2020 14:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:14:10.661793
- Title: How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models
- Title(参考訳): トークンはどれくらい良いですか。
多言語モデルにおける単言語性能について
- Authors: Phillip Rust, Jonas Pfeiffer, Ivan Vuli\'c, Sebastian Ruder, Iryna
Gurevych
- Abstract要約: 本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
- 参考スコア(独自算出の注目度): 96.32118305166412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we provide a \textit{systematic empirical comparison} of
pretrained multilingual language models versus their monolingual counterparts
with regard to their monolingual task performance. We study a set of nine
typologically diverse languages with readily available pretrained monolingual
models on a set of five diverse monolingual downstream tasks. We first
establish if a gap between the multilingual and the corresponding monolingual
representation of that language exists, and subsequently investigate the reason
for a performance difference. To disentangle the impacting variables, we train
new monolingual models on the same data, but with different tokenizers, both
the monolingual and the multilingual version. We find that while the
pretraining data size is an important factor, the designated tokenizer of the
monolingual model plays an equally important role in the downstream
performance. Our results show that languages which are adequately represented
in the multilingual model's vocabulary exhibit negligible performance decreases
over their monolingual counterparts. We further find that replacing the
original multilingual tokenizer with the specialized monolingual tokenizer
improves the downstream performance of the multilingual model for almost every
task and language.
- Abstract(参考訳): 本稿では,事前学習された多言語モデルと単言語モデルのタスク性能について,単言語モデルモデルとの比較を行った。
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
まず、その言語の多言語表現とそれに対応する単言語表現とのギャップを確定し、その後、性能差の理由を考察する。
影響する変数をアンタングルするために、同じデータ上で新しいモノリンガルモデルをトレーニングするが、異なるトークン化器(モノリンガル版とマルチリンガル版の両方)で訓練する。
事前学習データのサイズは重要な要素であるが,モノリンガルモデルの指定トークン化要因は下流のパフォーマンスにおいて等しく重要な役割を果たす。
以上の結果から,多言語モデルの語彙に適切に表現された言語は,単言語よりも無視可能な性能が低下することが示唆された。
さらに,従来の多言語トークン化器を専用単言語トークン化器に置き換えることで,ほぼすべてのタスクや言語に対する多言語モデルのダウンストリーム性能が向上することがわかった。
関連論文リスト
- Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - On the ability of monolingual models to learn language-agnostic
representations [2.604227467422371]
異なる言語で事前訓練および微調整された単言語モデルが競合性能を実現することを示す。
例えば、ドイツ語やポルトガル語のような遠方の言語で事前訓練されたモデルは、英語のタスクでも同様に機能する。
論文 参考訳(メタデータ) (2021-09-04T22:09:44Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。