論文の概要: Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2205.11758v1
- Date: Tue, 24 May 2022 03:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 08:08:29.365870
- Title: Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models
- Title(参考訳): 多言語言語モデルの単言語・言語間事前学習ダイナミクスの解析
- Authors: Terra Blevins, Hila Gonen, Luke Zettlemoyer
- Abstract要約: 本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 73.11488464916668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergent cross-lingual transfer seen in multilingual pretrained models
has sparked significant interest in studying their behavior. However, because
these analyses have focused on fully trained multilingual models, little is
known about the dynamics of the multilingual pretraining process. We
investigate when these models acquire their in-language and cross-lingual
abilities by probing checkpoints taken from throughout XLM-R pretraining, using
a suite of linguistic tasks. Our analysis shows that the model achieves high
in-language performance early on, with lower-level linguistic skills acquired
before more complex ones. In contrast, when the model learns to transfer
cross-lingually depends on the language pair. Interestingly, we also observe
that, across many languages and tasks, the final, converged model checkpoint
exhibits significant performance degradation and that no one checkpoint
performs best on all languages. Taken together with our other findings, these
insights highlight the complexity and interconnectedness of multilingual
pretraining.
- Abstract(参考訳): 多言語事前学習モデルに見られる創発的な言語間移動は、その振る舞いの研究に大きな関心を呼んだ。
しかし、これらの分析は、完全に訓練された多言語モデルに焦点を当てているため、多言語事前学習プロセスのダイナミクスについてはほとんど分かっていない。
xlm-rの事前学習から得られたチェックポイントを言語的タスクスイートを用いて探索し,これらのモデルが言語内および言語間能力を取得する際に検討する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることが示された。
対照的に、モデルが言語間の伝達を学ぶとき、言語ペアに依存する。
興味深いことに、多くの言語やタスクにおいて、最終的な収束したモデルチェックポイントはパフォーマンスが著しく低下しており、どのチェックポイントも全ての言語で最善を尽くさない。
これらの知見は他の知見と合わせて,多言語事前学習の複雑さと相互接続性を強調した。
関連論文リスト
- Causal Analysis of Syntactic Agreement Neurons in Multilingual Language
Models [28.036233760742125]
我々は多言語言語モデル(XGLMと多言語BERT)を様々な言語で因果的に探索する。
自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。
論文 参考訳(メタデータ) (2022-10-25T20:43:36Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - On the Multilingual Capabilities of Very Large-Scale English Language
Models [0.0]
GPT(Generative Pre-trained Transformer)は、機械学習の歴史において、前例のない規模に拡張されている。
本研究では,GPT-3の多言語的スキルについて検討し,事前学習用コーパスであるカタルーニャ語にはほとんど現れない1つの言語に着目した。
このモデルでは、特に生成タスクにおいて、主に言語理解タスクでは予測可能な制限があるが、ゼロショットシナリオでは顕著な結果が得られる。
論文 参考訳(メタデータ) (2021-08-30T16:18:50Z) - Probing Multilingual Language Models for Discourse [0.0]
XLM-RoBERTaファミリーのモデルが常に最高のパフォーマンスを示していることが分かりました。
また, モデル蒸留は, 文表現の言語間移動能力に悪影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-09T06:34:21Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual
Semantics with Monolingual Corpora [21.78571365050787]
ERNIE-Mは、複数の言語の表現をモノリンガルコーパスと整合させる新しいトレーニング手法である。
単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にする。
実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:52:27Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。