論文の概要: Mask Attention Networks: Rethinking and Strengthen Transformer
- arxiv url: http://arxiv.org/abs/2103.13597v1
- Date: Thu, 25 Mar 2021 04:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 22:18:55.480500
- Title: Mask Attention Networks: Rethinking and Strengthen Transformer
- Title(参考訳): Mask Attention Networks: Rethinking and Strengthen Transformer
- Authors: Zhihao Fan, Yeyun Gong, Dayiheng Liu, Zhongyu Wei, Siyuan Wang, Jian
Jiao, Nan Duan, Ruofei Zhang, Xuanjing Huang
- Abstract要約: Transformerは、セルフアテンションネットワーク(SAN)とフィードフォワードネットワーク(FFN)の2つのサブレイヤからなる注目ベースのニューラルネットワークです。
- 参考スコア(独自算出の注目度): 70.95528238937861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer is an attention-based neural network, which consists of two
sublayers, namely, Self-Attention Network (SAN) and Feed-Forward Network (FFN).
Existing research explores to enhance the two sublayers separately to improve
the capability of Transformer for text representation. In this paper, we
present a novel understanding of SAN and FFN as Mask Attention Networks (MANs)
and show that they are two special cases of MANs with static mask matrices.
However, their static mask matrices limit the capability for localness modeling
in text representation learning. We therefore introduce a new layer named
dynamic mask attention network (DMAN) with a learnable mask matrix which is
able to model localness adaptively. To incorporate advantages of DMAN, SAN, and
FFN, we propose a sequential layered structure to combine the three types of
layers. Extensive experiments on various tasks, including neural machine
translation and text summarization demonstrate that our model outperforms the
original Transformer.
- Abstract(参考訳): Transformerは注目に基づくニューラルネットワークで、SAN(Self-Attention Network)とFFN(Feed-Forward Network)という2つのサブレイヤで構成される。
既存の研究は、テキスト表現におけるトランスフォーマーの能力を改善するために、2つのサブレイヤーを別々に拡張することを検討している。
本稿では,san と ffn をマスクアテンションネットワーク (mans) として新たに理解し,静的マスクマトリクスを持つ男の2つの特別なケースであることを示す。
しかし、静的マスク行列は、テキスト表現学習における局所性モデリングの能力を制限する。
そこで我々は,局所性を適応的にモデル化できる学習可能なマスク行列を備えた動的マスキングアテンションネットワーク(DMAN)を導入する。
DMAN, SAN, FFNの利点を取り入れ, 3種類の層を組み合わせるシーケンシャルな層構造を提案する。
ニューラルネットワーク翻訳やテキスト要約など,さまざまなタスクに対する大規模な実験により,我々のモデルがオリジナルのトランスフォーマーより優れていることが示された。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - MoMask: Generative Masked Modeling of 3D Human Motions [25.168781728071046]
MoMaskはテキスト駆動型3Dモーション生成のための新しいフレームワークである。
階層的な量子化スキームは、人間の動きを離散的な動きトークンとして表現するために用いられる。
MoMaskは、テキスト・ツー・モーション生成タスクにおける最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-29T19:04:10Z) - Toward a Deeper Understanding: RetNet Viewed through Convolution [25.8904146140577]
Vision Transformer (ViT)はCNNよりもグローバルな依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。
本稿では、CNNの観点からRetNetの有効性について検討し、視覚領域に合わせたRetNetの変種を示す。
本稿では,1つのマスクが2つの学習可能なパラメータしか持たない新しいガウス混合マスク(GMM)を提案する。
論文 参考訳(メタデータ) (2023-09-11T10:54:22Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression
Recognition [1.8604727699812171]
2D+3D顔表情認識(FER)は、照明の変化に効果的に対応し、バリエーションを呈することができる。
ほとんどのディープラーニングベースのアプローチは、単純な融合戦略を採用している。
2D+3D FERのためのマスク付き適応核融合ネットワーク (AFNet-M) を提案する。
論文 参考訳(メタデータ) (2022-05-24T04:56:55Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。