論文の概要: Soft Language Clustering for Multilingual Model Pre-training
- arxiv url: http://arxiv.org/abs/2306.07610v1
- Date: Tue, 13 Jun 2023 08:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:42:30.522434
- Title: Soft Language Clustering for Multilingual Model Pre-training
- Title(参考訳): 多言語モデル事前学習のためのソフト言語クラスタリング
- Authors: Jiali Zeng and Yufan Jiang and Yongjing Yin and Yi Jing and Fandong
Meng and Binghuai Lin and Yunbo Cao and Jie Zhou
- Abstract要約: 本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
- 参考スコア(独自算出の注目度): 57.18058739931463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual pre-trained language models have demonstrated impressive
(zero-shot) cross-lingual transfer abilities, however, their performance is
hindered when the target language has distant typology from source languages or
when pre-training data is limited in size. In this paper, we propose XLM-P,
which contextually retrieves prompts as flexible guidance for encoding
instances conditionally. Our XLM-P enables (1) lightweight modeling of
language-invariant and language-specific knowledge across languages, and (2)
easy integration with other multilingual pre-training methods. On the tasks of
XTREME including text classification, sequence labeling, question answering,
and sentence retrieval, both base- and large-size language models pre-trained
with our proposed method exhibit consistent performance improvement.
Furthermore, it provides substantial advantages for low-resource languages in
unsupervised sentence retrieval and for target languages that differ greatly
from the source language in cross-lingual transfer.
- Abstract(参考訳): 多言語事前学習言語モデルは、印象的な(ゼロショット)言語間移動能力を示してきたが、対象言語がソース言語から遠ざかっている場合や、事前学習データのサイズが制限されている場合、その性能は阻害される。
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有の知識の軽量なモデリングを可能にする。
テキスト分類, シーケンスラベリング, 質問応答, 文検索を含むXTREMEのタスクについて, 提案手法で事前学習したベースモデルと大規模言語モデルの両方が一貫した性能改善を示す。
さらに、教師なし文検索における低リソース言語と、言語間転送のソース言語とは大きく異なるターゲット言語には、かなりの利点がある。
関連論文リスト
- LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T12:26:57Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。