論文の概要: Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High
- arxiv url: http://arxiv.org/abs/2105.02855v1
- Date: Thu, 6 May 2021 17:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-05-07 14:19:27.556382
- Title: Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High
- Title(参考訳): モノリンガルモデルに適応する: 言語類似度が高い場合、データはスカース化できる
- Authors: Wietse de Vries, Martijn Bartelds, Malvina Nissim, Martijn Wieling
- Abstract要約: ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
- 参考スコア(独自算出の注目度): 3.249853429482705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For many (minority) languages, the resources needed to train large models are
not available. We investigate the performance of zero-shot transfer learning
with as little data as possible, and the influence of language similarity in
this process. We retrain the lexical layers of four BERT-based models using
data from two low-resource target language varieties, while the Transformer
layers are independently fine-tuned on a POS-tagging task in the model's source
language. By combining the new lexical layers and fine-tuned Transformer
layers, we achieve high task performance for both target languages. With high
language similarity, 10MB of data appears sufficient to achieve substantial
monolingual transfer performance. Monolingual BERT-based models generally
achieve higher downstream task performance after retraining the lexical layer
than multilingual BERT, even when the target language is included in the
multilingual model.
- Abstract(参考訳): 多くの(マイナーな)言語では、大規模モデルのトレーニングに必要なリソースは利用できない。
本研究では,ゼロショット変換学習の性能をできるだけ少ないデータで検証し,このプロセスにおける言語類似性の影響について検討する。
我々は,2つの低リソースターゲット言語からのデータを用いて,BERTベースの4つのモデルの語彙層を再学習する一方,トランスフォーマー層は,モデルソース言語のPOSタグタスクに対して独立に微調整される。
新しい語彙層と微調整トランスフォーマー層を組み合わせることで、両方の言語で高いタスク性能を実現する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
単言語BERTベースのモデルは、多言語BERTよりも語彙層をトレーニングした後、ターゲット言語が多言語モデルに含まれる場合であっても、一般的に下流タスクのパフォーマンスを向上させる。
関連論文リスト
- MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。