論文の概要: How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2012.15613v1
- Date: Thu, 31 Dec 2020 14:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:14:10.661793
- Title: How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models
- Title(参考訳): トークンはどれくらい良いですか。
多言語モデルにおける単言語性能について
- Authors: Phillip Rust, Jonas Pfeiffer, Ivan Vuli\'c, Sebastian Ruder, Iryna
Gurevych
- Abstract要約: 本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
- 参考スコア(独自算出の注目度): 96.32118305166412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we provide a \textit{systematic empirical comparison} of
pretrained multilingual language models versus their monolingual counterparts
with regard to their monolingual task performance. We study a set of nine
typologically diverse languages with readily available pretrained monolingual
models on a set of five diverse monolingual downstream tasks. We first
establish if a gap between the multilingual and the corresponding monolingual
representation of that language exists, and subsequently investigate the reason
for a performance difference. To disentangle the impacting variables, we train
new monolingual models on the same data, but with different tokenizers, both
the monolingual and the multilingual version. We find that while the
pretraining data size is an important factor, the designated tokenizer of the
monolingual model plays an equally important role in the downstream
performance. Our results show that languages which are adequately represented
in the multilingual model's vocabulary exhibit negligible performance decreases
over their monolingual counterparts. We further find that replacing the
original multilingual tokenizer with the specialized monolingual tokenizer
improves the downstream performance of the multilingual model for almost every
task and language.
- Abstract(参考訳): 本稿では,事前学習された多言語モデルと単言語モデルのタスク性能について,単言語モデルモデルとの比較を行った。
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
まず、その言語の多言語表現とそれに対応する単言語表現とのギャップを確定し、その後、性能差の理由を考察する。
影響する変数をアンタングルするために、同じデータ上で新しいモノリンガルモデルをトレーニングするが、異なるトークン化器(モノリンガル版とマルチリンガル版の両方)で訓練する。
事前学習データのサイズは重要な要素であるが,モノリンガルモデルの指定トークン化要因は下流のパフォーマンスにおいて等しく重要な役割を果たす。
以上の結果から,多言語モデルの語彙に適切に表現された言語は,単言語よりも無視可能な性能が低下することが示唆された。
さらに,従来の多言語トークン化器を専用単言語トークン化器に置き換えることで,ほぼすべてのタスクや言語に対する多言語モデルのダウンストリーム性能が向上することがわかった。
関連論文リスト
- Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。
このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-08-20T04:30:26Z) - Multilingual BERT has an accent: Evaluating English influences on
fluency in multilingual models [23.62852626011989]
我々は,高次情報源言語における文法構造が低次情報源言語に肥大化したことを示す。
このバイアスは、多言語モデルの流布度とモノリンガルのスペイン語とギリシア語のモデルの流布度を比較する新しい方法によって示される。
論文 参考訳(メタデータ) (2022-10-11T17:06:38Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。