論文の概要: XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models
- arxiv url: http://arxiv.org/abs/2301.10472v1
- Date: Wed, 25 Jan 2023 09:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:38:43.876871
- Title: XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models
- Title(参考訳): XLM-V:多言語マスク言語モデルにおける語彙ボトルネックの克服
- Authors: Davis Liang, Hila Gonen, Yuning Mao, Rui Hou, Naman Goyal, Marjan
Ghazvininejad, Luke Zettlemoyer, Madian Khabsa
- Abstract要約: 我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。
我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
- 参考スコア(独自算出の注目度): 87.73297702813994
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large multilingual language models typically rely on a single vocabulary
shared across 100+ languages. As these models have increased in parameter count
and depth, vocabulary size has remained largely unchanged. This vocabulary
bottleneck limits the representational capabilities of multilingual models like
XLM-R. In this paper, we introduce a new approach for scaling to very large
multilingual vocabularies by de-emphasizing token sharing between languages
with little lexical overlap and assigning vocabulary capacity to achieve
sufficient coverage for each individual language. Tokenizations using our
vocabulary are typically more semantically meaningful and shorter compared to
XLM-R. Leveraging this improved vocabulary, we train XLM-V, a multilingual
language model with a one million token vocabulary. XLM-V outperforms XLM-R on
every task we tested on ranging from natural language inference (XNLI),
question answering (MLQA, XQuAD, TyDiQA), and named entity recognition
(WikiAnn) to low-resource tasks (Americas NLI, MasakhaNER).
- Abstract(参考訳): 大規模な多言語モデルは通常、100以上の言語で共有される単一の語彙に依存する。
これらのモデルがパラメータ数と深さを増加させるにつれて、語彙のサイズはほとんど変わっていない。
この語彙ボトルネックはXLM-Rのような多言語モデルの表現能力を制限する。
本稿では,語彙重複の少ない言語間でのトークン共有を非強調し,各言語に十分なカバレッジを達成するために語彙容量を割り当てることで,非常に大きな多言語語彙にスケールする新しい手法を提案する。
我々の語彙を用いたトークン化は、通常、XLM-Rよりも意味的に意味があり、短い。
この改良された語彙を活用して、100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-Vは、自然言語推論(XNLI)、質問応答(MLQA, XQuAD, TyDiQA)、名前付きエンティティ認識(WikiAnn)から低リソースタスク(Americas NLI, MasakhaNER)まで、テスト対象のタスクでXLM-Rより優れています。
関連論文リスト
- The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - XLM-K: Improving Cross-Lingual Language Model Pre-Training with
Multilingual Knowledge [31.765178013933134]
言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。
本稿では,事前学習に多言語知識を取り入れた言語間言語モデルXLM-Kを提案する。
論文 参考訳(メタデータ) (2021-09-26T11:46:20Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - A Primer on Pretrained Multilingual Language Models [18.943173499882885]
MLLM(Multilingual Language Models)は、多数の言語に事前学習の能力をもたらすための実行可能な選択肢として登場した。
本報告では,MLLMに関する研究分野について概説する。
論文 参考訳(メタデータ) (2021-07-01T18:01:46Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Improving Multilingual Models with Language-Clustered Vocabularies [8.587129426070979]
本稿では,複数の自動派生言語クラスタの別々に訓練された語彙を組み合わせた多言語語彙生成のための新しい手法を提案する。
我々の実験は、主要なマルチ言語ベンチマークタスクにおける言語間の改善を示す。
論文 参考訳(メタデータ) (2020-10-24T04:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。