論文の概要: Capsule-Transformer for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.14649v1
- Date: Thu, 30 Apr 2020 09:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:16:04.515196
- Title: Capsule-Transformer for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳用カプセルトランス
- Authors: Sufeng Duan, Juncheng Cao, Hai Zhao
- Abstract要約: トランスフォーマーはマルチヘッド自己注意ネットワーク(SAN)の鍵設計から大きな恩恵を受ける
より一般的なカプセルルーティングアルゴリズムに線形変換を拡張するカプセル変換器を提案する。
広く使われている機械翻訳データセットの実験結果から,提案したカプセルトランスフォーマーは強力なトランスフォーマーベースラインを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 73.84254045203222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer hugely benefits from its key design of the multi-head
self-attention network (SAN), which extracts information from various
perspectives through transforming the given input into different subspaces.
However, its simple linear transformation aggregation strategy may still
potentially fail to fully capture deeper contextualized information. In this
paper, we thus propose the capsule-Transformer, which extends the linear
transformation into a more general capsule routing algorithm by taking SAN as a
special case of capsule network. So that the resulted capsule-Transformer is
capable of obtaining a better attention distribution representation of the
input sequence via information aggregation among different heads and words.
Specifically, we see groups of attention weights in SAN as low layer capsules.
By applying the iterative capsule routing algorithm they can be further
aggregated into high layer capsules which contain deeper contextualized
information. Experimental results on the widely-used machine translation
datasets show our proposed capsule-Transformer outperforms strong Transformer
baseline significantly.
- Abstract(参考訳): トランスフォーマは、入力を異なる部分空間に変換することで、様々な視点から情報を抽出するマルチヘッドセルフアテンションネットワーク(san)の重要な設計から大きな恩恵を受けている。
しかし、その単純な線形変換集約戦略は、深い文脈情報を完全に捉えることができない可能性がある。
そこで本稿では,SANをカプセルネットワークの特殊なケースとして用いて,より一般的なカプセルルーティングアルゴリズムに線形変換を拡張したカプセル変換器を提案する。
結果のカプセルトランスフォーマーは、異なる頭と語間の情報集約により、入力シーケンスのより優れた注意分布表現を得ることができる。
具体的には、SANの注目重量の群を低層カプセルとみなす。
反復カプセルルーティングアルゴリズムを適用することで、より深い文脈情報を含む高層カプセルにさらに集約することができる。
広く使われている機械翻訳データセットの実験結果から,提案したカプセルトランスフォーマーは強力なトランスフォーマーベースラインを著しく上回ることがわかった。
関連論文リスト
- Deep multi-prototype capsule networks [0.3823356975862005]
カプセルネットワーク(Capsule Network)は、画像の部分を特定し、階層的に全体のインスタンス化パラメータを形成するニューラルネットワークの一種である。
本稿では,画像部品のバリエーションを表現するためにカプセルネットワークを誘導するマルチプロトタイプアーキテクチャを提案する。
MNIST, SVHN, C-Cube, CEDAR, MCYT, UTSigのデータセットに対する実験結果から, 提案したモデルが画像分類精度で他のモデルよりも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-04-23T18:37:37Z) - Why "classic" Transformers are shallow and how to make them go deep [4.520356456308492]
Transformerの主なイノベーションは、コンテキスト情報をキャプチャするセルフアテンションメカニズムである。
オリジナルのTransformerのデザインを、より深みのあるモデルに拡張することは、非常に難しいことが判明した。
本研究は,SA機構を明示的にあるいは暗黙的に低下させる既存のアプローチとは対照的に,外科的に過剰な類似性を除去する新たな戦略を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:49:16Z) - Inspecting Explainability of Transformer Models with Additional
Statistical Information [27.04589064942369]
Cheferらは、各イメージパッチの重要性を示すために注意層を組み合わせることで、視覚およびマルチモーダルタスク上のトランスフォーマーを効果的に可視化することができる。
しかし、Swin Transformerのような他の変種のTransformerに適用する場合、この方法は予測対象に集中できない。
本手法は,Swin Transformer と ViT が持つ説明可能性の理解に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-19T17:22:50Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation [18.755217252996754]
我々はDual Swin Transformer U-Net(DS-TransUNet)と呼ばれる新しいディープ・メディカル・イメージ・セグメンテーション・フレームワークを提案する。
従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetは、まずSwin Transformerをベースとしたデュアルスケールエンコーダワークを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。
DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。
論文 参考訳(メタデータ) (2021-06-12T08:37:17Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Subspace Capsule Network [85.69796543499021]
SubSpace Capsule Network (SCN) はカプセルネットワークのアイデアを利用して、エンティティの外観や暗黙的に定義された特性のバリエーションをモデル化する。
SCNは、テスト期間中にCNNと比較して計算オーバーヘッドを発生させることなく、識別モデルと生成モデルの両方に適用することができる。
論文 参考訳(メタデータ) (2020-02-07T17:51:56Z) - Examining the Benefits of Capsule Neural Networks [9.658250977094562]
カプセルネットワーク(Capsule Network)は、従来の畳み込みニューラルネットワークの欠点に対処する可能性のある、新たに開発されたニューラルネットワークのクラスである。
標準的なスカラーアクティベーションをベクトルに置き換えることで、カプセルネットワークはコンピュータビジョンアプリケーションのための次の大きな開発を目指している。
論文 参考訳(メタデータ) (2020-01-29T17:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。