論文の概要: MaiT: Leverage Attention Masks for More Efficient Image Transformers
- arxiv url: http://arxiv.org/abs/2207.03006v1
- Date: Wed, 6 Jul 2022 22:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:10:03.783015
- Title: MaiT: Leverage Attention Masks for More Efficient Image Transformers
- Title(参考訳): MaiT:より効率的な画像変換のためのレバレッジ注意マスク
- Authors: Ling Li, Ali Shafiee Ardestani, Joseph Hassoun
- Abstract要約: Masked attention image Transformer - MaiTでは、パラメータやFLOPが少ないCaiTと比較してトップ1の精度が最大1.7%向上し、Swinに比べてスループットが1.5倍向上した。
- 参考スコア(独自算出の注目度): 4.400421753565953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though image transformers have shown competitive results with convolutional
neural networks in computer vision tasks, lacking inductive biases such as
locality still poses problems in terms of model efficiency especially for
embedded applications. In this work, we address this issue by introducing
attention masks to incorporate spatial locality into self-attention heads.
Local dependencies are captured efficiently with masked attention heads along
with global dependencies captured by unmasked attention heads. With Masked
attention image Transformer - MaiT, top-1 accuracy increases by up to 1.7%
compared to CaiT with fewer parameters and FLOPs, and the throughput improves
by up to 1.5X compared to Swin. Encoding locality with attention masks is model
agnostic, and thus it applies to monolithic, hierarchical, or other novel
transformer architectures.
- Abstract(参考訳): 画像トランスフォーマーは、コンピュータビジョンタスクにおける畳み込みニューラルネットワークとの競合結果を示しているが、局所性のような帰納的バイアスの欠如は、特に組み込みアプリケーションではモデル効率の面で問題となる。
本研究では,空間的局所性を自己注意頭部に組み込むために,注意マスクを導入することでこの問題に対処する。
ローカル依存関係は、マスクされたアテンションヘッドで効率的にキャプチャされ、グローバル依存関係は非マストアテンションヘッドでキャプチャされる。
Masked attention image Transformer - MaiTでは、パラメータやFLOPが少ないCaiTと比較してトップ1の精度が最大1.7%向上し、Swinに比べてスループットが1.5倍向上した。
注意マスクによるローカリティの符号化はモデルに依存しないため、モノリシック、階層、その他の新しいトランスフォーマーアーキテクチャに適用できる。
関連論文リスト
- StableMask: Refining Causal Masking in Decoder-only Transformer [22.75632485195928]
因果マスキングと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。
しかし、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意スコアはゼロではなく1まで総和でなければならない。
因果マスクを精細化することで両方の制約に対処するパラメータフリー手法であるStableMaskを提案する。
論文 参考訳(メタデータ) (2024-02-07T12:01:02Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - MViT: Mask Vision Transformer for Facial Expression Recognition in the
wild [77.44854719772702]
野生における表情認識(FER)はコンピュータビジョンにおいて極めて困難な課題である。
本研究ではまず,野生におけるFERのためのマスク・ビジョン・トランス (MViT) を提案する。
我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、61.40%でAffectNet-8と同等の結果を得る。
論文 参考訳(メタデータ) (2021-06-08T16:58:10Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。