論文の概要: Attention Is All You Need
- arxiv url: http://arxiv.org/abs/1706.03762v7
- Date: Wed, 2 Aug 2023 00:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 18:31:40.145966
- Title: Attention Is All You Need
- Title(参考訳): 注意が必要なのは
- Authors: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion
Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
- Abstract要約: 本稿では,アテンション機構のみに基づく新しいシンプルなネットワークアーキテクチャであるTransformerを提案する。
2つの機械翻訳タスクの実験は、これらのモデルの品質が優れていることを示している。
- 参考スコア(独自算出の注目度): 36.87735219227719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant sequence transduction models are based on complex recurrent or
convolutional neural networks in an encoder-decoder configuration. The best
performing models also connect the encoder and decoder through an attention
mechanism. We propose a new simple network architecture, the Transformer, based
solely on attention mechanisms, dispensing with recurrence and convolutions
entirely. Experiments on two machine translation tasks show these models to be
superior in quality while being more parallelizable and requiring significantly
less time to train. Our model achieves 28.4 BLEU on the WMT 2014
English-to-German translation task, improving over the existing best results,
including ensembles by over 2 BLEU. On the WMT 2014 English-to-French
translation task, our model establishes a new single-model state-of-the-art
BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction
of the training costs of the best models from the literature. We show that the
Transformer generalizes well to other tasks by applying it successfully to
English constituency parsing both with large and limited training data.
- Abstract(参考訳): 支配的なシーケンストランスダクションモデルは、エンコーダ-デコーダ構成の複雑なリカレントまたは畳み込みニューラルネットワークに基づいている。
最高のパフォーマンスモデルは、注意機構を通じてエンコーダとデコーダを接続する。
本稿では,注意機構のみに基づいて,再帰と畳み込みを完全に不要にする,新しいネットワークアーキテクチャであるtransformerを提案する。
2つの機械翻訳タスクにおける実験により、これらのモデルはより並列性が高く、トレーニングに要する時間が大幅に減る一方で、品質が優れていることが示されている。
我々のモデルは、WMT 2014の英独翻訳タスクにおいて28.4 BLEUを達成し、2 BLEU 以上のアンサンブルを含む既存の最良の結果を改善した。
wmt 2014の英語とフランス語の翻訳タスクにおいて、本モデルは8gpu上で3.5日間トレーニングした後、新しいシングルモデルブレウスコアを41.8で確立する。
提案手法は,大規模かつ限定的な学習データを用いて,英文構文解析に適用することで,他のタスクにもうまく一般化できることを示す。
関連論文リスト
- Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Unsupervised Pretraining for Neural Machine Translation Using Elastic
Weight Consolidation [0.0]
本研究は、ニューラルネットワーク翻訳における教師なし事前訓練(NMT)の現在進行中の研究を提示する。
本研究では,モノリンガルデータを用いて学習した2つの言語モデルを用いて,エンコーダとデコーダの重み付けを初期化する。
両方向のNMTエンコーダを左から右への言語モデルで初期化し、元の左から右への言語モデリングタスクを記憶させることで、エンコーダの学習能力が制限されることを示す。
論文 参考訳(メタデータ) (2020-10-19T11:51:45Z) - Very Deep Transformers for Neural Machine Translation [100.51465892354234]
最大60のエンコーダ層と12のデコーダ層を持つ標準のTransformerベースのモデルを構築することが可能であることを示す。
これらのディープモデルは、ベースラインの6層モデルよりも2.5BLEUを上回っている。
論文 参考訳(メタデータ) (2020-08-18T07:14:54Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Neural Machine Translation with Joint Representation [42.491774594572725]
最近のニューラル機械翻訳(NMT)システムは、効率性のために対話を部分的に符号化している。
本稿では,各インタラクションについて完全に説明可能なジョイント表現を用いる。
提案した効率的な注意操作で表現を洗練することで効率の悪さを解消する。
論文 参考訳(メタデータ) (2020-02-16T09:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。