論文の概要: UNKs Everywhere: Adapting Multilingual Language Models to New Scripts
- arxiv url: http://arxiv.org/abs/2012.15562v1
- Date: Thu, 31 Dec 2020 11:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:14:52.775977
- Title: UNKs Everywhere: Adapting Multilingual Language Models to New Scripts
- Title(参考訳): unks everywhere: 新しいスクリプトに多言語言語モデルを適用する
- Authors: Jonas Pfeiffer, Ivan Vuli\'c, Iryna Gurevych, Sebastian Ruder
- Abstract要約: マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
- 参考スコア(独自算出の注目度): 103.79021395138423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massively multilingual language models such as multilingual BERT (mBERT) and
XLM-R offer state-of-the-art cross-lingual transfer performance on a range of
NLP tasks. However, due to their limited capacity and large differences in
pretraining data, there is a profound performance gap between resource-rich and
resource-poor target languages. The ultimate challenge is dealing with
under-resourced languages not covered at all by the models, which are also
written in scripts \textit{unseen} during pretraining. In this work, we propose
a series of novel data-efficient methods that enable quick and effective
adaptation of pretrained multilingual models to such low-resource languages and
unseen scripts. Relying on matrix factorization, our proposed methods
capitalize on the existing latent knowledge about multiple languages already
available in the pretrained model's embedding matrix. Furthermore, we show that
learning of the new dedicated embedding matrix in the target language can be
improved by leveraging a small number of vocabulary items (i.e., the so-called
\textit{lexically overlapping} tokens) shared between mBERT's and target
language vocabulary. Our adaptation techniques offer substantial performance
gains for languages with unseen scripts. We also demonstrate that they can also
yield improvements for low-resource languages written in scripts covered by the
pretrained model.
- Abstract(参考訳): BERT (mBERT) や XLM-R のような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
しかし、その能力が限られており、事前学習データに大きな違いがあるため、リソース豊富な言語とリソース不足のターゲット言語の間には大きなパフォーマンスギャップがある。
最終的な課題は、事前トレーニング中にスクリプト \textit{unseen} で記述されたモデルによってまったくカバーされていないアンダーリソース言語を扱うことだ。
本研究では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの迅速な適応を可能にする,新しいデータ効率手法を提案する。
提案手法は,行列因子化に基づいて,事前学習されたモデルの埋め込み行列で既に利用可能な複数の言語について,既存の潜在知識を活用する。
さらに、mBERTとターゲット言語語彙間で共有される少数の語彙(いわゆる「textit{lexically overlapping} tokens」)を活用することで、対象言語に新たに専用の埋め込み行列を学習することにより、改善できることを示す。
私たちの適応技術は、見当たらないスクリプトを持つ言語にかなりのパフォーマンス向上をもたらします。
また、事前訓練されたモデルでカバーされたスクリプトで書かれた低リソース言語でも改善できることを示す。
関連論文リスト
- Tik-to-Tok: Translating Language Models One Token at a Time: An
Embedding Initialization Strategy for Efficient Language Adaptation [19.624330093598996]
低級および中級の言語を対象としたモノリンガル言語モデルのトレーニングは、限定的かつしばしば不十分な事前学習データによって難しい。
ソース言語とターゲット言語の両方を含む単語翻訳辞書を一般化することにより、ターゲットトークン化者からのトークンをソース言語トークン化者からの意味的に類似したトークンにマッピングする。
我々は、高リソースモデルから中・低リソース言語、すなわちオランダ語とフリシアン語への変換実験を行っている。
論文 参考訳(メタデータ) (2023-10-05T11:45:29Z) - Embedding structure matters: Comparing methods to adapt multilingual
vocabularies to new languages [20.17308477850864]
事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。
本稿では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T04:27:18Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。