論文の概要: Contributions of Transformer Attention Heads in Multi- and Cross-lingual
Tasks
- arxiv url: http://arxiv.org/abs/2108.08375v1
- Date: Wed, 18 Aug 2021 20:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:44:52.539678
- Title: Contributions of Transformer Attention Heads in Multi- and Cross-lingual
Tasks
- Title(参考訳): 多言語・多言語タスクにおけるトランスフォーマーアテンションヘッドの寄与
- Authors: Weicheng Ma, Kai Zhang, Renze Lou, Lili Wang, Soroush Vosoughi
- Abstract要約: 我々は,多言語トランスフォーマーモデルにおいて,多くの注意を向けることによって,多言語間および多言語間タスクの性能に肯定的な影響を与えることを示した。
包括性を得るために,9言語にまたがる3つのタスクについて,事前学習した2つの多言語モデル,すなわち,マルチ言語BERT (mBERT) と XLM-R について検討した。
- 参考スコア(独自算出の注目度): 9.913751245347429
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper studies the relative importance of attention heads in
Transformer-based models to aid their interpretability in cross-lingual and
multi-lingual tasks. Prior research has found that only a few attention heads
are important in each mono-lingual Natural Language Processing (NLP) task and
pruning the remaining heads leads to comparable or improved performance of the
model. However, the impact of pruning attention heads is not yet clear in
cross-lingual and multi-lingual tasks. Through extensive experiments, we show
that (1) pruning a number of attention heads in a multi-lingual
Transformer-based model has, in general, positive effects on its performance in
cross-lingual and multi-lingual tasks and (2) the attention heads to be pruned
can be ranked using gradients and identified with a few trial experiments. Our
experiments focus on sequence labeling tasks, with potential applicability on
other cross-lingual and multi-lingual tasks. For comprehensiveness, we examine
two pre-trained multi-lingual models, namely multi-lingual BERT (mBERT) and
XLM-R, on three tasks across 9 languages each. We also discuss the validity of
our findings and their extensibility to truly resource-scarce languages and
other task settings.
- Abstract(参考訳): 本稿では, トランスフォーマーモデルにおける注意ヘッドの相対的重要性について検討し, 言語横断型および多言語型タスクにおける理解可能性について検討する。
以前の研究では、モノリンガル自然言語処理(NLP)の各タスクにおいて、わずかな注意点しか重要でないことが分かっており、残りのヘッドを刈り取ると、モデルの性能が同等または改善される。
しかし, 言語横断課題や多言語課題においては, 注意ヘッドの刈り取りの影響は明らかでない。
広範にわたる実験により,(1)多言語トランスフォーマーモデルにおける多くの注意点の刈り取りは,一般に,多言語・多言語タスクにおけるその性能に肯定的な影響を与え,(2)被刈り取るべき注意点を勾配を用いてランク付けし,いくつかの試行実験と同一視できることを示した。
本実験は,他の言語間および多言語間タスクに適用可能なシーケンスラベリングタスクに焦点をあてる。
包括性について,9言語にまたがる3つのタスクに対して,事前学習した2つの多言語モデル,すなわちマルチ言語BERT(mBERT)とXLM-Rを検討する。
また、本研究の成果と、真に資源を消費する言語や他のタスク設定への拡張性についても論じる。
関連論文リスト
- Analyzing the Evaluation of Cross-Lingual Knowledge Transfer in
Multilingual Language Models [12.662039551306632]
その結果,多言語モデルの高性能化は,実際の言語知識の伝達を必要としない要因が主な原因であることが示唆された。
具体的には、特に低リソース言語において、言語間で転送されたものは、主にデータアーチファクトとバイアスです。
論文 参考訳(メタデータ) (2024-02-03T09:41:52Z) - Team QUST at SemEval-2023 Task 3: A Comprehensive Study of Monolingual
and Multilingual Approaches for Detecting Online News Genre, Framing and
Persuasion Techniques [0.030458514384586396]
本稿では,SemEval2023タスク3におけるチームQUSTの参加について述べる。
モノリンガルモデルは、まず多数クラスのアンダーサンプリングを用いて評価される。
事前学習された多言語モデルは、クラス重みとサンプル重みの組み合わせで微調整される。
論文 参考訳(メタデータ) (2023-04-09T08:14:01Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - Do Multilingual Neural Machine Translation Models Contain Language Pair
Specific Attention Heads? [16.392272086563175]
本稿では,多言語ニューラルトランスフォーメーション(NMT)モデルの個々のコンポーネントを解析することを目的とする。
我々は、ある言語対の翻訳に特有なエンコーダの自己注意とエンコーダ・デコーダのアテンションヘッドについて、他のものよりも検討する。
実験の結果、驚くほど重要な注意点のセットは言語ペア間で非常によく似ていることがわかった。
論文 参考訳(メタデータ) (2021-05-31T13:15:55Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。