論文の概要: Transformer++
- arxiv url: http://arxiv.org/abs/2003.04974v1
- Date: Mon, 2 Mar 2020 13:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 03:56:10.454745
- Title: Transformer++
- Title(参考訳): Transformer++
- Authors: Prakhar Thapak and Prodip Hore
- Abstract要約: 注意機構を用いた変圧器は、シーケンスモデリングにおける最先端の結果のみを達成した。
コンボリューションを用いたマルチヘッドのコンテキストから依存関係を学習する新しい手法を提案する。
新しい形態の多面的注意と伝統的な形態は、WMT 2014の英語-ドイツ語と英語-フランス語の翻訳タスクにおいて、Transformerよりも優れた結果をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in attention mechanisms have replaced recurrent neural
networks and its variants for machine translation tasks. Transformer using
attention mechanism solely achieved state-of-the-art results in sequence
modeling. Neural machine translation based on the attention mechanism is
parallelizable and addresses the problem of handling long-range dependencies
among words in sentences more effectively than recurrent neural networks. One
of the key concepts in attention is to learn three matrices, query, key, and
value, where global dependencies among words are learned through linearly
projecting word embeddings through these matrices. Multiple query, key, value
matrices can be learned simultaneously focusing on a different subspace of the
embedded dimension, which is called multi-head in Transformer. We argue that
certain dependencies among words could be learned better through an
intermediate context than directly modeling word-word dependencies. This could
happen due to the nature of certain dependencies or lack of patterns that lend
them difficult to be modeled globally using multi-head self-attention. In this
work, we propose a new way of learning dependencies through a context in
multi-head using convolution. This new form of multi-head attention along with
the traditional form achieves better results than Transformer on the WMT 2014
English-to-German and English-to-French translation tasks. We also introduce a
framework to learn POS tagging and NER information during the training of
encoder which further improves results achieving a new state-of-the-art of 32.1
BLEU, better than existing best by 1.4 BLEU, on the WMT 2014 English-to-German
and 44.6 BLEU, better than existing best by 1.1 BLEU, on the WMT 2014
English-to-French translation tasks. We call this Transformer++.
- Abstract(参考訳): 近年の注意機構の進歩により、機械翻訳タスクの繰り返しニューラルネットワークとその変種が置き換えられている。
注意機構を用いた変圧器は、シーケンスモデリングにおける最先端結果のみを達成する。
アテンション機構に基づくニューラルマシン翻訳は並列化可能であり、反復型ニューラルネットワークよりも文中の単語間の長距離依存性を扱う問題に対処する。
注目されている重要な概念の1つは、3つの行列、クエリ、キー、値を学ぶことである。
複数クエリ、キー、値行列は、Transformerでマルチヘッドと呼ばれる埋め込み次元の異なる部分空間に焦点を当てて同時に学習することができる。
我々は、単語間の依存関係は、単語の依存関係を直接モデル化するよりも、中間的な文脈でよりよく学習できると主張している。
これは、特定の依存関係の性質や、マルチヘッドのセルフアテンションを使用してグローバルにモデル化することが難しいパターンの欠如によって起こりうる。
本研究では,コンボリューションを用いたマルチヘッドのコンテキストから依存関係を学習する新しい手法を提案する。
この新たな多面的注意と伝統的な形式は、WMT 2014の英語-ドイツ語/英語-フランス語の翻訳タスクにおいて、Transformerよりも優れた結果をもたらす。
また、エンコーダのトレーニング中にposタグとner情報を学習するためのフレームワークを導入し、wmt 2014の英語対ドイツ語、44.6 bleu、wmt 2014の英語対フランス語翻訳タスクにおける既存のベストよりも優れた、既存のベストである32.1 bleuよりも優れた32.1 bleuの新たな最先端を達成する結果をさらに向上させる。
これをTransformer++と呼びます。
関連論文リスト
- Pointer-Generator Networks for Low-Resource Machine Translation: Don't Copy That! [13.120825574589437]
本研究では,Transformer-based neural machine translation (NMT) が高リソース環境において非常に有効であることを示す。
このモデルでは,近縁な言語対と遠縁な言語対に対する改善が示されていない。
この動作の理由に関する議論は、LR NMTのいくつかの一般的な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-03-16T16:17:47Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。