論文の概要: XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models
- arxiv url: http://arxiv.org/abs/2301.10472v1
- Date: Wed, 25 Jan 2023 09:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:38:43.876871
- Title: XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models
- Title(参考訳): XLM-V:多言語マスク言語モデルにおける語彙ボトルネックの克服
- Authors: Davis Liang, Hila Gonen, Yuning Mao, Rui Hou, Naman Goyal, Marjan
Ghazvininejad, Luke Zettlemoyer, Madian Khabsa
- Abstract要約: 我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。
我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
- 参考スコア(独自算出の注目度): 87.73297702813994
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large multilingual language models typically rely on a single vocabulary
shared across 100+ languages. As these models have increased in parameter count
and depth, vocabulary size has remained largely unchanged. This vocabulary
bottleneck limits the representational capabilities of multilingual models like
XLM-R. In this paper, we introduce a new approach for scaling to very large
multilingual vocabularies by de-emphasizing token sharing between languages
with little lexical overlap and assigning vocabulary capacity to achieve
sufficient coverage for each individual language. Tokenizations using our
vocabulary are typically more semantically meaningful and shorter compared to
XLM-R. Leveraging this improved vocabulary, we train XLM-V, a multilingual
language model with a one million token vocabulary. XLM-V outperforms XLM-R on
every task we tested on ranging from natural language inference (XNLI),
question answering (MLQA, XQuAD, TyDiQA), and named entity recognition
(WikiAnn) to low-resource tasks (Americas NLI, MasakhaNER).
- Abstract(参考訳): 大規模な多言語モデルは通常、100以上の言語で共有される単一の語彙に依存する。
これらのモデルがパラメータ数と深さを増加させるにつれて、語彙のサイズはほとんど変わっていない。
この語彙ボトルネックはXLM-Rのような多言語モデルの表現能力を制限する。
本稿では,語彙重複の少ない言語間でのトークン共有を非強調し,各言語に十分なカバレッジを達成するために語彙容量を割り当てることで,非常に大きな多言語語彙にスケールする新しい手法を提案する。
我々の語彙を用いたトークン化は、通常、XLM-Rよりも意味的に意味があり、短い。
この改良された語彙を活用して、100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-Vは、自然言語推論(XNLI)、質問応答(MLQA, XQuAD, TyDiQA)、名前付きエンティティ認識(WikiAnn)から低リソースタスク(Americas NLI, MasakhaNER)まで、テスト対象のタスクでXLM-Rより優れています。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - XLM-K: Improving Cross-Lingual Language Model Pre-Training with
Multilingual Knowledge [31.765178013933134]
言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。
本稿では,事前学習に多言語知識を取り入れた言語間言語モデルXLM-Kを提案する。
論文 参考訳(メタデータ) (2021-09-26T11:46:20Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Improving Multilingual Models with Language-Clustered Vocabularies [8.587129426070979]
本稿では,複数の自動派生言語クラスタの別々に訓練された語彙を組み合わせた多言語語彙生成のための新しい手法を提案する。
我々の実験は、主要なマルチ言語ベンチマークタスクにおける言語間の改善を示す。
論文 参考訳(メタデータ) (2020-10-24T04:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。