論文の概要: DICT-MLM: Improved Multilingual Pre-Training using Bilingual
Dictionaries
- arxiv url: http://arxiv.org/abs/2010.12566v1
- Date: Fri, 23 Oct 2020 17:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:53:05.576501
- Title: DICT-MLM: Improved Multilingual Pre-Training using Bilingual
Dictionaries
- Title(参考訳): DICT-MLM:バイリンガル辞書を用いた多言語事前学習の改善
- Authors: Aditi Chaudhary, Karthik Raman, Krishna Srinivasan, Jiecao Chen
- Abstract要約: 主要な言語学習目的としてのマスケプド・モデリング(MLM)の目的。
DICT-MLMは、オリジナルのマスキングされた単語だけでなく、言語間の同義語も予測できるようにモデルにインセンティブを与える。
30以上の言語にまたがる複数の下流タスクに関する実証分析により,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 8.83363871195679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained multilingual language models such as mBERT have shown immense
gains for several natural language processing (NLP) tasks, especially in the
zero-shot cross-lingual setting. Most, if not all, of these pre-trained models
rely on the masked-language modeling (MLM) objective as the key language
learning objective. The principle behind these approaches is that predicting
the masked words with the help of the surrounding text helps learn potent
contextualized representations. Despite the strong representation learning
capability enabled by MLM, we demonstrate an inherent limitation of MLM for
multilingual representation learning. In particular, by requiring the model to
predict the language-specific token, the MLM objective disincentivizes learning
a language-agnostic representation -- which is a key goal of multilingual
pre-training. Therefore to encourage better cross-lingual representation
learning we propose the DICT-MLM method. DICT-MLM works by incentivizing the
model to be able to predict not just the original masked word, but potentially
any of its cross-lingual synonyms as well. Our empirical analysis on multiple
downstream tasks spanning 30+ languages, demonstrates the efficacy of the
proposed approach and its ability to learn better multilingual representations.
- Abstract(参考訳): mBERTのような事前訓練された多言語モデルでは、特にゼロショット言語間設定において、いくつかの自然言語処理(NLP)タスクが大幅に向上している。
これらの事前訓練されたモデルのほとんどは、主要な言語学習目的として、マスク付き言語モデリング(MLM)の目的に依存している。
これらのアプローチの背後にある原則は、マスキングされた単語を周囲のテキストの助けを借りて予測することは、強力な文脈化表現を学ぶのに役立つ。
MLMの強力な表現学習能力にもかかわらず、多言語表現学習におけるMLMの固有の制限を示す。
特に、モデルに言語固有のトークンを予測することを要求することで、MLMの目標は言語に依存しない表現の学習を非インセンティブにします。
そこで本研究では,DICT-MLM法を提案する。
DICT-MLMは、オリジナルのマスキングされた単語だけでなく、言語間の同義語も予測できるようにモデルにインセンティブを与える。
30以上の言語にまたがる複数の下流タスクに関する実証分析は、提案手法の有効性と、より優れた多言語表現を学習する能力を示す。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。
本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。
ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文 参考訳(メタデータ) (2024-04-16T21:45:59Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Unsupervised Improvement of Factual Knowledge in Language Models [4.5788796239850225]
マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。
本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T07:37:06Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Learning Multilingual Representation for Natural Language Understanding
with Enhanced Cross-Lingual Supervision [42.724921817550516]
そこで本稿では,MAの代替として,DA(Decomposed attention)というネットワークを提案する。
DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。
様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-09T16:12:13Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。