論文の概要: Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling
- arxiv url: http://arxiv.org/abs/2204.05210v1
- Date: Mon, 11 Apr 2022 15:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 13:49:48.505733
- Title: Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling
- Title(参考訳): 言語モデルと言語間シーケンスラベリングのギャップの橋渡し
- Authors: Nuo Chen, Linjun Shou, Ming Gong, Jian Pei, Daxin Jiang
- Abstract要約: 大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
- 参考スコア(独自算出の注目度): 101.74165219364264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale cross-lingual pre-trained language models (xPLMs) have shown
effectiveness in cross-lingual sequence labeling tasks (xSL), such as
cross-lingual machine reading comprehension (xMRC) by transferring knowledge
from a high-resource language to low-resource languages. Despite the great
success, we draw an empirical observation that there is a training objective
gap between pre-training and fine-tuning stages: e.g., mask language modeling
objective requires local understanding of the masked token and the
span-extraction objective requires global understanding and reasoning of the
input passage/paragraph and question, leading to the discrepancy between
pre-training and xMRC. In this paper, we first design a pre-training task
tailored for xSL named Cross-lingual Language Informative Span Masking (CLISM)
to eliminate the objective gap in a self-supervised manner. Second, we present
ContrAstive-Consistency Regularization (CACR), which utilizes contrastive
learning to encourage the consistency between representations of input parallel
sequences via unsupervised cross-lingual instance-wise training signals during
pre-training. By these means, our methods not only bridge the gap between
pretrain-finetune, but also enhance PLMs to better capture the alignment
between different languages. Extensive experiments prove that our method
achieves clearly superior results on multiple xSL benchmarks with limited
pre-training data. Our methods also surpass the previous state-of-the-art
methods by a large margin in few-shot data settings, where only a few hundred
training examples are available.
- Abstract(参考訳): 大規模言語間事前学習言語モデル (xPLMs) は、高リソース言語から低リソース言語への知識の伝達により、言語間機械読解 (xMRC) などの言語間シーケンスラベリングタスク (xSL) において有効であることを示す。
例えば、マスク言語モデリングの目的にはマスクトークンの局所的な理解が必要であり、スパン抽出の目的には入力パス/パラグラフと質問のグローバルな理解と推論が必要であり、事前学習とxMRCの相違につながる。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLに適した事前学習タスクを設計し,自己教師型手法の客観的ギャップを解消する。
第2に、コントラスト学習を利用して、事前学習中に教師なしの言語間インスタンスワイズ学習信号を介して入力並列シーケンスの表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
これらの方法により,プリトレイン・フィニチューン間のギャップを橋渡しするだけでなく,異なる言語間のアライメントをよりよく捉えるためにplmを強化する。
予備学習データに制限のある複数のxSLベンチマークにおいて,本手法が明らかに優れていることを示す。
我々の手法は、数百のトレーニング例しか利用できない数ショットのデータ設定において、従来の最先端の手法をはるかに上回っている。
関連論文リスト
- VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - XeroAlign: Zero-Shot Cross-lingual Transformer Alignment [9.340611077939828]
XLM-Rなどのクロスリンガルプリトレーニングトランスのタスク固有アライメント法について紹介する。
XeroAlignは翻訳されたタスクデータを使用して、モデルが異なる言語の同様の文埋め込みを生成するよう促します。
XLM-RAのテキスト分類精度はラベル付きデータで訓練されたXLM-Rよりも優れており、言語間対数パラフレーズタスクにおける最先端のモデルと同等である。
論文 参考訳(メタデータ) (2021-05-06T07:10:00Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - On Learning Universal Representations Across Languages [37.555675157198145]
文レベルの表現を学習するための既存のアプローチを拡張し、言語間理解と生成の有効性を示す。
具体的には,複数の言語に分散した並列文の普遍表現を学習するための階層型コントラスト学習(HiCTL)手法を提案する。
我々は、XTREMEと機械翻訳という2つの難解な言語間タスクについて評価を行う。
論文 参考訳(メタデータ) (2020-07-31T10:58:39Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。