論文の概要: Weight, Is Attention All We Need? AEIUOrder: Greedy Ordering of Layer
Weight Matrices in Transformer Improves Translation
- arxiv url: http://arxiv.org/abs/2302.02123v1
- Date: Sat, 4 Feb 2023 07:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:05:11.738610
- Title: Weight, Is Attention All We Need? AEIUOrder: Greedy Ordering of Layer
Weight Matrices in Transformer Improves Translation
- Title(参考訳): 体重、注意は必要か?
AEIUOrder:トランスフォーマーにおける層重行列のグリーディ順序付けによる翻訳の改善
- Authors: Elicia Ye
- Abstract要約: 本研究では, エンコーダの層重行列をよく訓練することで, AEIUOrder をグリーズリーに並べ替える手法を提案する。
目的は、デコーダ構造がエンコーダの逆過程を表現するのに役立ちながら、エンコーダの完全な訓練を最大限にすることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work has attempted to understand the internal structures and
functionalities of Transformer-based encoder-decoder architectures on the level
of multi-head attention and feed-forward sublayers. Interpretations have
focused on the encoder and decoder, along with the combinatorial possibilities
of the self-attention, cross-attention, and feed-forward sublayers. Could we
improve the quality of translation by diving into the Transformer sublayer
abstractions and permuting its layer weight matrices? We propose AEIUOrder to
greedily reorder layer weight matrices in the encoder by their
well-trainedness, as measured by Random Matrix Theory (RMT) metrics, and
reverse the ordering scheme for the encoder. The objective is to maximize Total
well-trainedness in the encoder while the decoder structure serves to represent
the reverse process of encoding. On the standard Transformer (6 layers, model
dimension 512), AEIUOrder achieves a BLEU score of 34.62 (baseline 34.31) on
the IWSLT 2016 German-to-English translation task, and 27.95 BLEU on the WMT
2014 English-to-German translation task (baseline 27.91). AEIUOrder is also
realized on Transformers with various depths and embedding dimensions, showing
significant improvements on deeper, wider models than on their shallower,
slimmer counterparts. For instance, the 8-layer, 768-dimension and the 4-layer,
1024-dimension Transformers achieve respective 29.1 and 29.31 BLEU scores on
the IWSLT 2016 English-to-German translation task (28.53 and 28.97 on
respective baselines). Our results suggest that the RMT-motivated approach to
maximize \textit{Total well-trainedness}, by greedily reordering its layer
weight matrices, facilitates the model to learn representations and generate
translations more effectively.
- Abstract(参考訳): 先行研究では、トランスフォーマベースのエンコーダ・デコーダアーキテクチャの内部構造と機能について、マルチヘッドアテンションとフィードフォワードサブレイヤーのレベルで理解しようと試みている。
解釈は、エンコーダとデコーダに焦点を合わせ、セルフアテンション、クロスアテンション、フィードフォワードサブレイヤーの組合せ可能性に焦点を当てている。
トランスフォーマーのサブ層抽象に飛び込み、その層重行列を置換することで翻訳の質を向上させることができるか?
本稿では,ランダム行列理論 (rmt) の指標を用いて,エンコーダ内の層重み行列を規則的に順序付けし,エンコーダの順序付けを逆転させる手法を提案する。
目的は、デコーダ構造がエンコーダの逆過程を表現するのに役立ちながら、エンコーダの完全訓練性を最大化することである。
標準トランスフォーマー(6層、モデル次元512)では、IWSLT 2016ドイツ語翻訳タスクで34.62点(ベースライン34.31点)、WMT 2014英語翻訳タスクで27.95点(ベースライン27.91点)を達成している。
AEIUOrderは、様々な深さと埋め込み次元を持つトランスフォーマーでも実現されており、浅いスリムなモデルよりもより深く、より広いモデルで大幅に改善されている。
例えば、8層、768次元、4層、1024次元変換器は、IWSLT 2016の英独翻訳タスク(28.53と28.97)でそれぞれ29.1と29.31のBLEUスコアを達成している。
以上の結果から, RMTをモチベーションとした手法は, 層重行列を優雅に並べ替えることで, 表現を学習し, 翻訳をより効果的に生成する。
関連論文リスト
- Optimizing Deep Transformers for Chinese-Thai Low-Resource Translation [9.294853905247383]
CCMT 2022中国語-タイ低リソース機械翻訳タスクにおけるDeep Transformer変換モデルの利用について検討する。
レイヤ数が増加すると、新しいモデルパラメータの正規化も増加するので、最高のパフォーマンス設定を採用するが、Transformerの深さを24層に増やす。
本研究は,中国語-タイ語翻訳におけるSOTA性能を制約付き評価で取得する。
論文 参考訳(メタデータ) (2022-12-24T05:35:04Z) - Modeling Context With Linear Attention for Scalable Document-Level
Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文 参考訳(メタデータ) (2022-10-16T03:41:50Z) - GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation [107.2752114891855]
トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T04:10:36Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z) - Deep Transformers with Latent Depth [42.33955275626127]
Transformerモデルは、多くのシーケンスモデリングタスクにおいて最先端のパフォーマンスを達成した。
本稿では,層選択の後方分布を学習することで,どの層を使うかを自動的に学習する確率的フレームワークを提案する。
多言語機械翻訳のための1つの共有トランスフォーマーネットワークを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T07:13:23Z) - Very Deep Transformers for Neural Machine Translation [100.51465892354234]
最大60のエンコーダ層と12のデコーダ層を持つ標準のTransformerベースのモデルを構築することが可能であることを示す。
これらのディープモデルは、ベースラインの6層モデルよりも2.5BLEUを上回っている。
論文 参考訳(メタデータ) (2020-08-18T07:14:54Z) - Multiscale Collaborative Deep Models for Neural Machine Translation [40.52423993051359]
従来よりもはるかに深いNMTモデルのトレーニングを容易にするために,MultiScale Collaborative (MSC) フレームワークを提案する。
我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。
我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNTTモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-04-29T08:36:08Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z) - Probing Word Translations in the Transformer and Trading Decoder for
Encoder Layers [69.40942736249397]
トランスフォーマー層における単語の翻訳方法はまだ研究されていない。
翻訳はすでにエンコーダ層や入力埋め込みでも徐々に行われています。
実験の結果,翻訳品質が低い2.3までの速度向上が可能であり,さらに18-4のディープエンコーダ構成では翻訳品質が1.42BLEU(En-De)の速度アップで+1.42BLEU(En-De)向上することがわかった。
論文 参考訳(メタデータ) (2020-03-21T06:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。