論文の概要: Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning
- arxiv url: http://arxiv.org/abs/2301.09626v1
- Date: Mon, 23 Jan 2023 18:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-01-24 12:39:11.958746
- Title: Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning
- Title(参考訳): 言語間およびプログレッシブトランスファー学習による効率的な言語モデル学習
- Authors: Malte Ostendorff, Georg Rehm
- Abstract要約: ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
- 参考スコア(独自算出の注目度): 0.7612676127275795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most Transformer language models are primarily pretrained on English text,
limiting their use for other languages. As the model sizes grow, the
performance gap between English and other languages with fewer compute and data
resources increases even further. Consequently, more resource-efficient
training methods are needed to bridge the gap for languages with fewer
resources available. To address this problem, we introduce a cross-lingual and
progressive transfer learning approach, called CLP-Transfer, that transfers
models from a source language, for which pretrained models are publicly
available, like English, to a new target language. As opposed to prior work,
which focused on the cross-lingual transfer between two languages, we extend
the transfer to the model size. Given a pretrained model in a source language,
we aim for a same-sized model in a target language. Instead of training a model
from scratch, we exploit a smaller model that is in the target language but
requires much fewer resources. Both small and source models are then used to
initialize the token embeddings of the larger model based on the overlapping
vocabulary of the source and target language. All remaining weights are reused
from the model in the source language. This approach outperforms the sole
cross-lingual transfer and can save up to 80% of the training steps compared to
the random initialization.
- Abstract(参考訳): ほとんどのトランスフォーマー言語モデルは、主に英語のテキストで事前訓練されており、他の言語での使用を制限する。
モデルのサイズが大きくなるにつれて、計算量やデータリソースの少ない英語と他の言語のパフォーマンスギャップはさらに大きくなる。
その結果、リソースが少ない言語のギャップを埋めるために、よりリソース効率の良いトレーニング方法が必要となる。
この問題に対処するため,我々はclp-transferと呼ばれる言語間およびプログレッシブトランスファー学習アプローチを導入し,学習済みモデルが英語のように公に利用できるソース言語から新しいターゲット言語へモデルを転送する。
2つの言語間の言語間変換に焦点を当てた先行研究とは対照的に、モデルサイズに転送を拡張する。
ソース言語で事前訓練されたモデルを考えると、ターゲット言語で同じ大きさのモデルを目指しています。
モデルをスクラッチからトレーニングするのではなく、ターゲット言語にあるがリソースがはるかに少ない、より小さなモデルを活用します。
小さいモデルとソースモデルの両方を使用して、ソースとターゲット言語の重なり合う語彙に基づいて、より大きなモデルのトークン埋め込みを初期化する。
残りの重みはすべて、ソース言語のモデルから再利用されます。
このアプローチは、単独の言語間伝達よりも優れており、ランダム初期化と比較してトレーニングステップの最大80%を節約できる。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - WECHSEL: Effective initialization of subword embeddings for
cross-lingual transfer of monolingual language models [3.6878069324996616]
WECHSELと呼ばれる手法を導入し、新しい言語に英語モデルを転送する。
We use WECHSEL to transfer GPT-2 and RoBERTa models to four other languages。
論文 参考訳(メタデータ) (2021-12-13T12:26:02Z) - Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。
ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文 参考訳(メタデータ) (2021-04-23T02:56:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z) - From English To Foreign Languages: Transferring Pre-trained Language
Models [0.12691047660244334]
事前訓練されたモデルは、多くの下流自然言語処理(NLP)タスクにおいてその効果を実証している。
多言語事前訓練モデルの可用性により、高リソース言語から低リソース言語へのNLPタスクのゼロショット転送が可能となる。
我々は,既存の事前学習されたモデルを,限定的な計算予算の下で英語から他言語に移行する問題に対処する。
論文 参考訳(メタデータ) (2020-02-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。