論文の概要: Do Multilingual Neural Machine Translation Models Contain Language Pair
Specific Attention Heads?
- arxiv url: http://arxiv.org/abs/2105.14940v1
- Date: Mon, 31 May 2021 13:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:54:50.411206
- Title: Do Multilingual Neural Machine Translation Models Contain Language Pair
Specific Attention Heads?
- Title(参考訳): 多言語ニューラルマシン翻訳モデルは、言語ペア固有の注意ヘッドを含むか?
- Authors: Zae Myung Kim, Laurent Besacier, Vassilina Nikoulina, Didier Schwab
- Abstract要約: 本稿では,多言語ニューラルトランスフォーメーション(NMT)モデルの個々のコンポーネントを解析することを目的とする。
我々は、ある言語対の翻訳に特有なエンコーダの自己注意とエンコーダ・デコーダのアテンションヘッドについて、他のものよりも検討する。
実験の結果、驚くほど重要な注意点のセットは言語ペア間で非常によく似ていることがわかった。
- 参考スコア(独自算出の注目度): 16.392272086563175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on the analysis of the multilingual representations focus on
identifying whether there is an emergence of language-independent
representations, or whether a multilingual model partitions its weights among
different languages. While most of such work has been conducted in a
"black-box" manner, this paper aims to analyze individual components of a
multilingual neural translation (NMT) model. In particular, we look at the
encoder self-attention and encoder-decoder attention heads (in a many-to-one
NMT model) that are more specific to the translation of a certain language pair
than others by (1) employing metrics that quantify some aspects of the
attention weights such as "variance" or "confidence", and (2) systematically
ranking the importance of attention heads with respect to translation quality.
Experimental results show that surprisingly, the set of most important
attention heads are very similar across the language pairs and that it is
possible to remove nearly one-third of the less important heads without hurting
the translation quality greatly.
- Abstract(参考訳): 多言語表現の分析に関する最近の研究は、言語非依存表現の出現の有無や、多言語モデルがその重みを異なる言語に分割するかどうかを識別することに焦点を当てている。
このような研究の多くはブラックボックス方式で行われているが、本稿は多言語ニューラル翻訳(NMT)モデルの個々のコンポーネントを分析することを目的としている。
特に,(1)「ばらつき」や「自信」といった注意重みのいくつかの側面を定量化する指標を用いて,(1)特定の言語対の翻訳に特有なエンコーダ・セルフ・アテンションとエンコーダ・デコーダ・アテンションヘッド(多対1nmtモデル)に着目し,(2)翻訳品質に関して注意ヘッドの重要性を体系的にランク付けする。
実験結果から、言語ペア間で最も重要な注意点の集合が非常によく似ており、翻訳品質を著しく損なうことなく、あまり重要でない頭部の3分の1近くを除去できることがわかった。
関連論文リスト
- Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Informative Language Representation Learning for Massively Multilingual
Neural Machine Translation [47.19129812325682]
多言語ニューラルマシン翻訳モデルでは、通常、人工言語トークンを使用して、所望のターゲット言語への翻訳をガイドする。
近年の研究では、先行する言語トークンは、多言語ニューラルマシン翻訳モデルから正しい翻訳方向へのナビゲートに失敗することがある。
本稿では,言語埋め込み型エンボディメントと言語認識型マルチヘッドアテンションという2つの手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T04:27:17Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Contributions of Transformer Attention Heads in Multi- and Cross-lingual
Tasks [9.913751245347429]
我々は,多言語トランスフォーマーモデルにおいて,多くの注意を向けることによって,多言語間および多言語間タスクの性能に肯定的な影響を与えることを示した。
包括性を得るために,9言語にまたがる3つのタスクについて,事前学習した2つの多言語モデル,すなわち,マルチ言語BERT (mBERT) と XLM-R について検討した。
論文 参考訳(メタデータ) (2021-08-18T20:17:46Z) - Importance-based Neuron Allocation for Multilingual Neural Machine
Translation [27.65375150324557]
本稿では,言語間の重要性に基づいて,モデルニューロンを汎用と言語固有の部分に分割することを提案する。
一般的な部分は、一般的な知識を保存し、すべての言語の翻訳に参加する責任がある。
言語固有の部分は、言語固有の知識を保持し、特定の言語の翻訳に参加する責任がある。
論文 参考訳(メタデータ) (2021-07-14T09:15:05Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。