論文の概要: Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2205.11758v1
- Date: Tue, 24 May 2022 03:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 08:08:29.365870
- Title: Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models
- Title(参考訳): 多言語言語モデルの単言語・言語間事前学習ダイナミクスの解析
- Authors: Terra Blevins, Hila Gonen, Luke Zettlemoyer
- Abstract要約: 本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 73.11488464916668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergent cross-lingual transfer seen in multilingual pretrained models
has sparked significant interest in studying their behavior. However, because
these analyses have focused on fully trained multilingual models, little is
known about the dynamics of the multilingual pretraining process. We
investigate when these models acquire their in-language and cross-lingual
abilities by probing checkpoints taken from throughout XLM-R pretraining, using
a suite of linguistic tasks. Our analysis shows that the model achieves high
in-language performance early on, with lower-level linguistic skills acquired
before more complex ones. In contrast, when the model learns to transfer
cross-lingually depends on the language pair. Interestingly, we also observe
that, across many languages and tasks, the final, converged model checkpoint
exhibits significant performance degradation and that no one checkpoint
performs best on all languages. Taken together with our other findings, these
insights highlight the complexity and interconnectedness of multilingual
pretraining.
- Abstract(参考訳): 多言語事前学習モデルに見られる創発的な言語間移動は、その振る舞いの研究に大きな関心を呼んだ。
しかし、これらの分析は、完全に訓練された多言語モデルに焦点を当てているため、多言語事前学習プロセスのダイナミクスについてはほとんど分かっていない。
xlm-rの事前学習から得られたチェックポイントを言語的タスクスイートを用いて探索し,これらのモデルが言語内および言語間能力を取得する際に検討する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることが示された。
対照的に、モデルが言語間の伝達を学ぶとき、言語ペアに依存する。
興味深いことに、多くの言語やタスクにおいて、最終的な収束したモデルチェックポイントはパフォーマンスが著しく低下しており、どのチェックポイントも全ての言語で最善を尽くさない。
これらの知見は他の知見と合わせて,多言語事前学習の複雑さと相互接続性を強調した。
関連論文リスト
- Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。
例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文 参考訳(メタデータ) (2024-08-26T16:29:13Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Analyzing the Evaluation of Cross-Lingual Knowledge Transfer in
Multilingual Language Models [12.662039551306632]
その結果,多言語モデルの高性能化は,実際の言語知識の伝達を必要としない要因が主な原因であることが示唆された。
具体的には、特に低リソース言語において、言語間で転送されたものは、主にデータアーチファクトとバイアスです。
論文 参考訳(メタデータ) (2024-02-03T09:41:52Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - On the Multilingual Capabilities of Very Large-Scale English Language
Models [0.0]
GPT(Generative Pre-trained Transformer)は、機械学習の歴史において、前例のない規模に拡張されている。
本研究では,GPT-3の多言語的スキルについて検討し,事前学習用コーパスであるカタルーニャ語にはほとんど現れない1つの言語に着目した。
このモデルでは、特に生成タスクにおいて、主に言語理解タスクでは予測可能な制限があるが、ゼロショットシナリオでは顕著な結果が得られる。
論文 参考訳(メタデータ) (2021-08-30T16:18:50Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。