論文の概要: Are All Languages Created Equal in Multilingual BERT?
- arxiv url: http://arxiv.org/abs/2005.09093v2
- Date: Thu, 1 Oct 2020 02:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:38:50.169038
- Title: Are All Languages Created Equal in Multilingual BERT?
- Title(参考訳): すべての言語は多言語bertで等しいか?
- Authors: Shijie Wu, Mark Dredze
- Abstract要約: 104言語で訓練されたMultilingual BERT (mBERT)は、いくつかのNLPタスクにおいて驚くほど優れた言語間性能を示している。
我々は、mBERTが低リソース言語における表現の質に焦点をあて、より広い言語群でどのように機能するかを考察する。
- 参考スコア(独自算出の注目度): 22.954688396858085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual BERT (mBERT) trained on 104 languages has shown surprisingly
good cross-lingual performance on several NLP tasks, even without explicit
cross-lingual signals. However, these evaluations have focused on cross-lingual
transfer with high-resource languages, covering only a third of the languages
covered by mBERT. We explore how mBERT performs on a much wider set of
languages, focusing on the quality of representation for low-resource
languages, measured by within-language performance. We consider three tasks:
Named Entity Recognition (99 languages), Part-of-speech Tagging, and Dependency
Parsing (54 languages each). mBERT does better than or comparable to baselines
on high resource languages but does much worse for low resource languages.
Furthermore, monolingual BERT models for these languages do even worse. Paired
with similar languages, the performance gap between monolingual BERT and mBERT
can be narrowed. We find that better models for low resource languages require
more efficient pretraining techniques or more data.
- Abstract(参考訳): 104言語で訓練された多言語BERT(mBERT)は、明示的な言語間信号がなくても、いくつかのNLPタスクにおいて驚くほど優れた言語間性能を示している。
しかし、これらの評価は、mBERTがカバーしている言語の3分の1しかカバーしていない、高リソース言語による言語間移動に焦点を当てている。
我々はmBERTがより広い言語群でどのように機能するかを考察し、低リソース言語における表現の質に焦点をあてる。
名前付きエンティティ認識(99言語)、part-of-speechタグ、依存関係解析(それぞれ54言語)の3つのタスクについて検討した。
mBERTは高リソース言語のベースラインよりも優れていますが、低リソースの言語ではずっと悪いです。
さらに、これらの言語の単言語 bert モデルはさらに悪い。
類似言語を用いて、単言語BERTとmBERTのパフォーマンスギャップを狭めることができる。
低リソース言語のためのより良いモデルには、より効率的な事前トレーニング技術やより多くのデータが必要です。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - When Is Multilinguality a Curse? Language Modeling for 250 High- and
Low-Resource Languages [25.52470575274251]
私たちは250以上の言語で1万以上のモノリンガルおよび多言語言語モデルを事前訓練しています。
モデレーションでは、多言語データを追加することで、低リソース言語モデリングのパフォーマンスが向上する。
データセットのサイズが大きくなるにつれて、マルチリンガルデータの追加は、低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
論文 参考訳(メタデータ) (2023-11-15T18:47:42Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - To What Degree Can Language Borders Be Blurred In BERT-based
Multilingual Spoken Language Understanding? [7.245261469258502]
BERTをベースとした多言語言語理解(SLU)モデルは, 遠隔言語群でもかなりうまく機能するが, 理想的な多言語言語性能にはまだギャップがあることを示す。
本稿では,多言語SLUのための言語共有および言語固有表現を学習するための,BERTに基づく新しい逆モデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-10T09:59:24Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。