論文の概要: Multi-Pass Transformer for Machine Translation
- arxiv url: http://arxiv.org/abs/2009.11382v1
- Date: Wed, 23 Sep 2020 21:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:12:03.281385
- Title: Multi-Pass Transformer for Machine Translation
- Title(参考訳): 機械翻訳用マルチパストランス
- Authors: Peng Gao, Chiori Hori, Shijie Geng, Takaaki Hori, Jonathan Le Roux
- Abstract要約: 我々は、後続のレイヤの出力に照らして、以前のレイヤが情報を処理できるマルチパストランスフォーマー(MPT)アーキテクチャについて検討する。
MPTは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンはEn-Frの性能も向上する。
- 参考スコア(独自算出の注目度): 51.867982400693194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast with previous approaches where information flows only towards
deeper layers of a stack, we consider a multi-pass transformer (MPT)
architecture in which earlier layers are allowed to process information in
light of the output of later layers. To maintain a directed acyclic graph
structure, the encoder stack of a transformer is repeated along a new
multi-pass dimension, keeping the parameters tied, and information is allowed
to proceed unidirectionally both towards deeper layers within an encoder stack
and towards any layer of subsequent stacks. We consider both soft (i.e.,
continuous) and hard (i.e., discrete) connections between parallel encoder
stacks, relying on a neural architecture search to find the best connection
pattern in the hard case. We perform an extensive ablation study of the
proposed MPT architecture and compare it with other state-of-the-art
transformer architectures. Surprisingly, Base Transformer equipped with MPT can
surpass the performance of Large Transformer on the challenging machine
translation En-De and En-Fr datasets. In the hard connection case, the optimal
connection pattern found for En-De also leads to improved performance for
En-Fr.
- Abstract(参考訳): 情報がスタックのより深い層にのみ流れる従来のアプローチとは対照的に、より古いレイヤが後のレイヤの出力に照らして情報を処理できるマルチパストランスフォーマ(mpt)アーキテクチャを検討する。
有向非巡回グラフ構造を維持するために、変圧器のエンコーダスタックは、新しいマルチパス次元に沿って繰り返し、パラメータを結び付け、エンコーダスタック内のより深い層とその後のスタックの任意の層の両方に一方向に進むことができる。
並列エンコーダスタック間のソフトな(すなわち連続的な)接続とハードな(すなわち離散的な)接続の両方を考慮する。
提案するmptアーキテクチャの広範なアブレーション研究を行い,他の最先端のトランスフォーマーアーキテクチャと比較した。
驚くべきことに、MPTを備えたBase Transformerは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンもEn-Frの性能を向上させる。
関連論文リスト
- DenseFormer: Enhancing Information Flow in Transformers via Depth
Weighted Averaging [37.84577212249692]
我々はDenseFormerを提案する。DenseFormerは、モデルのサイズを増大させることなく、モデルの難易度を向上する標準アーキテクチャの簡単な修正である。
提案手法は,現在および過去の表現の重み付き平均を計算する,各変圧器ブロックの後の加算平均ステップに依存する。
実験によると、DenseFormerはよりデータ効率が高く、より深いトランスフォーマーモデルと同じ難易度に達する。
論文 参考訳(メタデータ) (2024-02-04T21:44:09Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in
Transformers [60.58073666177477]
我々はLearner-Transformers(Learner-Transformers)と呼ばれる線形変換器の新しいクラスを提案する。
学習者変換器は、幅広い相対的位置符号化機構(RPE)を組み込む
また、画像分類や3次元分子モデリングといった他のデータモダリティやタスクについても、sを徹底的に検証した。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - A Neural ODE Interpretation of Transformer Layers [8.839601328192957]
マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。
我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。
実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:18:58Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - EDTER: Edge Detection with Transformer [71.83960813880843]
本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-16T11:55:55Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Quality and Cost Trade-offs in Passage Re-ranking Task [0.0]
本稿では,情報検索パイプラインのランキングステップにおいて,適切なアーキテクチャを選択するかという問題に焦点をあてる。
コルベルトアーキテクチャやポリエンコーダアーキテクチャなどの遅延相互作用モデルとその修正について検討した。
また,検索インデックスのメモリフットプリントの処理を行い,変換器エンコーダから出力ベクトルを二項化するためにラーニング・ツー・ハッシュ法を適用しようとした。
論文 参考訳(メタデータ) (2021-11-18T19:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。