論文の概要: On the Prunability of Attention Heads in Multilingual BERT
- arxiv url: http://arxiv.org/abs/2109.12683v1
- Date: Sun, 26 Sep 2021 19:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:35:55.404201
- Title: On the Prunability of Attention Heads in Multilingual BERT
- Title(参考訳): 多言語bertにおけるアテンションヘッドのprunabilityについて
- Authors: Aakriti Budhraja, Madhura Pande, Pratyush Kumar, Mitesh M. Khapra
- Abstract要約: 我々は,mBERTの強靭性を定量化し,層レベルでの重要性を解釈するためにプルーニングを用いる。
クロスリンガルタスクXNLIでは, プルーニングによる高い精度低下を報告し, クロスリンガル転送におけるロバスト性の低下を示唆した。
エンコーダ層の重要性は、言語ファミリーと事前学習コーパスサイズに敏感に依存する。
- 参考スコア(独自算出の注目度): 16.050780610444413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multilingual models, such as mBERT, have shown promise in crosslingual
transfer. In this work, we employ pruning to quantify the robustness and
interpret layer-wise importance of mBERT. On four GLUE tasks, the relative
drops in accuracy due to pruning have almost identical results on mBERT and
BERT suggesting that the reduced attention capacity of the multilingual models
does not affect robustness to pruning. For the crosslingual task XNLI, we
report higher drops in accuracy with pruning indicating lower robustness in
crosslingual transfer. Also, the importance of the encoder layers sensitively
depends on the language family and the pre-training corpus size. The top
layers, which are relatively more influenced by fine-tuning, encode important
information for languages similar to English (SVO) while the bottom layers,
which are relatively less influenced by fine-tuning, are particularly important
for agglutinative and low-resource languages.
- Abstract(参考訳): mBERTのような大規模多言語モデルは、言語間移動において有望であることを示している。
本研究では,mBERTの強靭性を定量化し,層レベルでの重要性を解釈するためにプルーニングを用いる。
4つのGLUEタスクにおいて、pruningによる相対的な精度低下はmBERTとBERTでほぼ同じ結果となり、多言語モデルの注意力の低下はpruningに対するロバスト性に影響を及ぼさないことが示唆された。
クロスリンガルタスクXNLIでは, プルーニングによる高い精度低下を報告し, クロスリンガル転送におけるロバスト性の低下を示唆した。
また、エンコーダ層の重要性は、言語ファミリーと事前学習コーパスサイズに敏感に依存する。
上位層は細調整の影響が比較的大きいため、英語(SVO)に似た言語で重要な情報をエンコードするが、下位層は細調整の影響が比較的少ないため、凝集性および低リソース言語では特に重要である。
関連論文リスト
- The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - What makes multilingual BERT multilingual? [60.9051207862378]
本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。
我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T05:41:56Z) - From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual
Transfer with Multilingual Transformers [62.637055980148816]
言語モデリングの目的によって事前訓練された多言語トランスフォーマーは、NLPの事実上のデフォルト転送パラダイムとなっている。
膨大な多言語変換器による言語間変換は,リソースリーンシナリオや遠方言語では著しく効果が低いことを示す。
論文 参考訳(メタデータ) (2020-05-01T22:04:58Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。