論文の概要: Distilling Efficient Language-Specific Models for Cross-Lingual Transfer
- arxiv url: http://arxiv.org/abs/2306.01709v1
- Date: Fri, 2 Jun 2023 17:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 13:52:39.215047
- Title: Distilling Efficient Language-Specific Models for Cross-Lingual Transfer
- Title(参考訳): クロスリンガル移動のための蒸留効率の良い言語特化モデル
- Authors: Alan Ansell, Edoardo Maria Ponti, Anna Korhonen, Ivan Vuli\'c
- Abstract要約: 多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
- 参考スコア(独自算出の注目度): 75.32131584449786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massively multilingual Transformers (MMTs), such as mBERT and XLM-R, are
widely used for cross-lingual transfer learning. While these are pretrained to
represent hundreds of languages, end users of NLP systems are often interested
only in individual languages. For such purposes, the MMTs' language coverage
makes them unnecessarily expensive to deploy in terms of model size, inference
time, energy, and hardware cost. We thus propose to extract compressed,
language-specific models from MMTs which retain the capacity of the original
MMTs for cross-lingual transfer. This is achieved by distilling the MMT
bilingually, i.e., using data from only the source and target language of
interest. Specifically, we use a two-phase distillation approach, termed
BiStil: (i) the first phase distils a general bilingual model from the MMT,
while (ii) the second, task-specific phase sparsely fine-tunes the bilingual
"student" model using a task-tuned variant of the original MMT as its
"teacher". We evaluate this distillation technique in zero-shot cross-lingual
transfer across a number of standard cross-lingual benchmarks. The key results
indicate that the distilled models exhibit minimal degradation in target
language performance relative to the base MMT despite being significantly
smaller and faster. Furthermore, we find that they outperform multilingually
distilled models such as DistilmBERT and MiniLMv2 while having a very modest
training budget in comparison, even on a per-language basis. We also show that
bilingual models distilled from MMTs greatly outperform bilingual models
trained from scratch. Our code and models are available at
https://github.com/AlanAnsell/bistil.
- Abstract(参考訳): mBERTやXLM-Rのような多言語変換器(MMT)は多言語間変換学習に広く用いられている。
これらは数百の言語を表すために事前訓練されているが、NLPシステムのエンドユーザは個々の言語にのみ興味を持つことが多い。
そのような目的のために、mmtsの言語カバレッジは、モデルサイズ、推論時間、エネルギー、ハードウェアコストの点で、不要なコストを発生させる。
そこで本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTの容量を保持する。
これは、MSTをバイリンガルに蒸留し、すなわち、ソースとターゲット言語のみのデータを使用することによって達成される。
具体的には二相蒸留法(bistil:)を用いる。
i)第1相は、MTから一般的なバイリンガルモデルを消耗する一方、
(II)第2のタスク固有のフェーズは、元のMTTのタスクチューニング版を「教師」として用いて、バイリンガルの「学生」モデルをわずかに微調整する。
この蒸留技術は,多くの標準言語間ベンチマークにおいてゼロショット言語間移動において評価される。
その結果, 蒸留モデルでは, 比較的小さく, 高速であるにもかかわらず, 基本MTと比較して目標言語性能の低下が最小限に抑えられたことが示唆された。
さらに,DtilmBERT や MiniLMv2 などの多言語蒸留モデルでは,言語毎の訓練予算が極めて緩やかであり,性能も優れていた。
また,MMTから蒸留したバイリンガルモデルは,スクラッチから訓練したバイリンガルモデルよりも大幅に優れていた。
私たちのコードとモデルはhttps://github.com/alanansell/bistil.comで利用可能です。
関連論文リスト
- MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information
Extraction [38.88339164947934]
言語横断的オープン情報抽出は,複数の言語にまたがる原文から構造化された情報を抽出することを目的としている。
以前の作業では、異なる言語を扱うために、共通言語間の事前訓練モデルを使用していたが、言語固有の表現の可能性を過小評価している。
MT4CrossIEという,言語間オープン情報抽出の効率化を目的とした,効果的な多段階チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:38:10Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。