論文の概要: Multi-Pass Transformer for Machine Translation
- arxiv url: http://arxiv.org/abs/2009.11382v1
- Date: Wed, 23 Sep 2020 21:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:12:03.281385
- Title: Multi-Pass Transformer for Machine Translation
- Title(参考訳): 機械翻訳用マルチパストランス
- Authors: Peng Gao, Chiori Hori, Shijie Geng, Takaaki Hori, Jonathan Le Roux
- Abstract要約: 我々は、後続のレイヤの出力に照らして、以前のレイヤが情報を処理できるマルチパストランスフォーマー(MPT)アーキテクチャについて検討する。
MPTは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンはEn-Frの性能も向上する。
- 参考スコア(独自算出の注目度): 51.867982400693194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast with previous approaches where information flows only towards
deeper layers of a stack, we consider a multi-pass transformer (MPT)
architecture in which earlier layers are allowed to process information in
light of the output of later layers. To maintain a directed acyclic graph
structure, the encoder stack of a transformer is repeated along a new
multi-pass dimension, keeping the parameters tied, and information is allowed
to proceed unidirectionally both towards deeper layers within an encoder stack
and towards any layer of subsequent stacks. We consider both soft (i.e.,
continuous) and hard (i.e., discrete) connections between parallel encoder
stacks, relying on a neural architecture search to find the best connection
pattern in the hard case. We perform an extensive ablation study of the
proposed MPT architecture and compare it with other state-of-the-art
transformer architectures. Surprisingly, Base Transformer equipped with MPT can
surpass the performance of Large Transformer on the challenging machine
translation En-De and En-Fr datasets. In the hard connection case, the optimal
connection pattern found for En-De also leads to improved performance for
En-Fr.
- Abstract(参考訳): 情報がスタックのより深い層にのみ流れる従来のアプローチとは対照的に、より古いレイヤが後のレイヤの出力に照らして情報を処理できるマルチパストランスフォーマ(mpt)アーキテクチャを検討する。
有向非巡回グラフ構造を維持するために、変圧器のエンコーダスタックは、新しいマルチパス次元に沿って繰り返し、パラメータを結び付け、エンコーダスタック内のより深い層とその後のスタックの任意の層の両方に一方向に進むことができる。
並列エンコーダスタック間のソフトな(すなわち連続的な)接続とハードな(すなわち離散的な)接続の両方を考慮する。
提案するmptアーキテクチャの広範なアブレーション研究を行い,他の最先端のトランスフォーマーアーキテクチャと比較した。
驚くべきことに、MPTを備えたBase Transformerは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンもEn-Frの性能を向上させる。
関連論文リスト
- Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Pyramid Hierarchical Transformer for Hyperspectral Image Classification [1.9427851979929982]
ピラミッド型階層変換器(PyFormer)を提案する。
この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。
その結果,従来の手法よりも提案手法の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T11:41:19Z) - DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging [34.643717080240584]
我々はDenseFormerを提案する。DenseFormerは、モデルのサイズを増大させることなく、モデルの難易度を向上する標準アーキテクチャの簡単な修正である。
提案手法は,現在および過去の表現の重み付き平均を計算する,各変圧器ブロックの後の加算平均ステップに依存する。
実験によると、DenseFormerはよりデータ効率が高く、より深いトランスフォーマーモデルと同じ難易度に達する。
論文 参考訳(メタデータ) (2024-02-04T21:44:09Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers [71.32827362323205]
我々はLearner-Transformer (Learners)と呼ばれる線形変換器の新しいクラスを提案する。
様々な相対的位置エンコーディング機構(RPE)を組み込んでいる。
これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。