論文の概要: Feature Aggregation in Zero-Shot Cross-Lingual Transfer Using
Multilingual BERT
- arxiv url: http://arxiv.org/abs/2205.08497v1
- Date: Tue, 17 May 2022 17:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 14:01:33.382480
- Title: Feature Aggregation in Zero-Shot Cross-Lingual Transfer Using
Multilingual BERT
- Title(参考訳): 多言語BERTを用いたゼロショット言語間移動における特徴集約
- Authors: Beiduo Chen, Wu Guo, Quan Liu, Kun Tao
- Abstract要約: 大規模な多言語コーパスで事前訓練された言語モデルであるMultilingual BERT (mBERT) は、印象的なゼロショット言語間転送機能を備えている。
本研究では,mBERTの最後の変圧器層に対する下層の相補的性質について検討する。
mBERTの異なる層に情報を融合するために,アテンション機構に基づく特徴集約モジュールを提案する。
- 参考スコア(独自算出の注目度): 16.22182090626537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual BERT (mBERT), a language model pre-trained on large multilingual
corpora, has impressive zero-shot cross-lingual transfer capabilities and
performs surprisingly well on zero-shot POS tagging and Named Entity
Recognition (NER), as well as on cross-lingual model transfer. At present, the
mainstream methods to solve the cross-lingual downstream tasks are always using
the last transformer layer's output of mBERT as the representation of
linguistic information. In this work, we explore the complementary property of
lower layers to the last transformer layer of mBERT. A feature aggregation
module based on an attention mechanism is proposed to fuse the information
contained in different layers of mBERT. The experiments are conducted on four
zero-shot cross-lingual transfer datasets, and the proposed method obtains
performance improvements on key multilingual benchmark tasks XNLI (+1.5 %),
PAWS-X (+2.4 %), NER (+1.2 F1), and POS (+1.5 F1). Through the analysis of the
experimental results, we prove that the layers before the last layer of mBERT
can provide extra useful information for cross-lingual downstream tasks and
explore the interpretability of mBERT empirically.
- Abstract(参考訳): 大規模な多言語コーパスで事前訓練された言語モデルであるMultilingual BERT(mBERT)は、ゼロショットのクロスランガルトランスファー機能を備え、ゼロショットPOSタグと名前付きエンティティ認識(NER)、およびクロスランガルモデルトランスファーに驚くほどよく機能する。
現在、言語間下流タスクを解決する主要な方法は、言語情報の表現として、最後のトランスフォーマー層のmBERT出力を常に用いている。
本研究では,mBERTの最後の変圧器層に対する下層の相補的性質について検討する。
mBERTの異なる層に含まれる情報を融合するために,注目機構に基づく特徴集約モジュールを提案する。
4つのゼロショットクロスリンガル転送データセットについて実験を行い,提案手法は,重要多言語ベンチマークタスク xnli (+1.5 %),paws-x (+2.4 %),ner (+1.2 f1),pos (+1.5 f1) の性能改善を実現する。
実験結果から, mBERTの最終層より前の層が, 言語間下流タスクに有用な情報を提供し, mBERTの解釈可能性について実験的に検証できることを示した。
関連論文リスト
- Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction [18.926993352330797]
本稿では,低リソース言語データの英語翻訳をモデルに微調整したフレームワークであるTransFusionを提案する。
GoLLIE-TFは、IEタスクのための言語間命令チューニング LLM であり、ハイソース言語と低リソース言語のパフォーマンスギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2023-05-23T01:23:22Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。
本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。
その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-06-03T10:18:43Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。