論文の概要: Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training
- arxiv url: http://arxiv.org/abs/2202.13654v1
- Date: Mon, 28 Feb 2022 09:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 16:51:44.384998
- Title: Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training
- Title(参考訳): 多言語蒸留とゼロショットアウェアトレーニングによる言語間テキスト分類
- Authors: Ziqing Yang, Yiming Cui, Zhigang Chen, Shijin Wang
- Abstract要約: 多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
- 参考スコア(独自算出の注目度): 21.934439663979663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual pre-trained language models (MPLMs) not only can handle tasks in
different languages but also exhibit surprising zero-shot cross-lingual
transferability. However, MPLMs usually are not able to achieve comparable
supervised performance on rich-resource languages compared to the
state-of-the-art monolingual pre-trained models. In this paper, we aim to
improve the multilingual model's supervised and zero-shot performance
simultaneously only with the resources from supervised languages. Our approach
is based on transferring knowledge from high-performance monolingual models
with a teacher-student framework. We let the multilingual model learn from
multiple monolingual models simultaneously. To exploit the model's
cross-lingual transferability, we propose MBLM (multi-branch multilingual
language model), a model built on the MPLMs with multiple language branches.
Each branch is a stack of transformers. MBLM is trained with the
zero-shot-aware training strategy that encourages the model to learn from the
mixture of zero-shot representations from all the branches. The results on two
cross-lingual classification tasks show that, with only the task's supervised
data used, our method improves both the supervised and zero-shot performance of
MPLMs.
- Abstract(参考訳): 多言語事前学習言語モデル(mplm)は、異なる言語でのタスクを処理できるだけでなく、驚くべきゼロショット言語間転送性を示す。
しかし、mplmは通常、最先端のモノリンガル事前学習モデルと比較して、リッチリソース言語で同等の性能を達成できない。
本稿では,多言語モデルの教師付きおよびゼロショット性能と教師付き言語からのリソースのみを同時に改善することを目的とする。
提案手法は,教師学習フレームワークを用いた高性能モノリンガルモデルからの知識の伝達に基づく。
複数の単言語モデルから多言語モデルを同時に学習させる。
本研究では,複数の言語枝を持つmplm上に構築したモデルであるmblm(multi-branch multilingual language model)を提案する。
各ブランチは変換器のスタックである。
mblmは、すべてのブランチからゼロショット表現の混合からモデルを学ぶことを奨励するゼロショット認識トレーニング戦略でトレーニングされる。
2つの言語間分類タスクの結果から,タスクの教師付きデータのみを用いて,MPLMの教師付き性能とゼロショット性能を改善した。
関連論文リスト
- PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Distilling Efficient Language-Specific Models for Cross-Lingual Transfer [75.32131584449786]
多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:52Z) - WeLM: A Well-Read Pre-trained Language Model for Chinese [37.68378062625651]
WeLM: 中国語のためのよく読まれる事前学習型言語モデルを提案する。
WeLMには様々なドメインや言語に関する幅広い知識が備わっていることを示す。
論文 参考訳(メタデータ) (2022-09-21T14:05:30Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。