論文の概要: Synthesizer Based Efficient Self-Attention for Vision Tasks
- arxiv url: http://arxiv.org/abs/2201.01410v2
- Date: Sun, 29 Sep 2024 06:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:07.064714
- Title: Synthesizer Based Efficient Self-Attention for Vision Tasks
- Title(参考訳): 合成器による視覚タスクの効率的な自己認識
- Authors: Guangyang Zhu, Jianfeng Zhang, Yuanzhi Feng, Hai Lan,
- Abstract要約: セルフアテンションモジュールは、画像分類や画像キャプションなどの視覚タスクのパフォーマンスを高めながら、長距離関係のキャプチャにおいて優れた能力を示す。
本稿では,画像テンソル特徴を直接処理するための自己注意型プラグインモジュール,すなわちSynthesizing Transformations (STT)を提案する。
- 参考スコア(独自算出の注目度): 10.822515889248676
- License:
- Abstract: Self-attention module shows outstanding competence in capturing long-range relationships while enhancing performance on vision tasks, such as image classification and image captioning. However, the self-attention module highly relies on the dot product multiplication and dimension alignment among query-key-value features, which cause two problems: (1) The dot product multiplication results in exhaustive and redundant computation. (2) Due to the visual feature map often appearing as a multi-dimensional tensor, reshaping the scale of the tensor feature to adapt to the dimension alignment might destroy the internal structure of the tensor feature map. To address these problems, this paper proposes a self-attention plug-in module with its variants, namely, Synthesizing Tensor Transformations (STT), for directly processing image tensor features. Without computing the dot-product multiplication among query-key-value, the basic STT is composed of the tensor transformation to learn the synthetic attention weight from visual information. The effectiveness of STT series is validated on the image classification and image caption. Experiments show that the proposed STT achieves competitive performance while keeping robustness compared to self-attention in the aforementioned vision tasks.
- Abstract(参考訳): セルフアテンションモジュールは、画像分類や画像キャプションなどの視覚タスクのパフォーマンスを高めながら、長距離関係のキャプチャにおいて優れた能力を示す。
しかし、自己注意モジュールは、問合せキー値の特徴間のドット積乗法と次元アライメントに強く依存しており、(1)ドット積乗法は徹底的かつ冗長な計算をもたらす。
2) 多次元テンソルとしてしばしば現れる視覚的特徴写像のため,次元アライメントに適応するテンソル特徴のスケールを再構成することで,テンソル特徴写像の内部構造が破壊される可能性がある。
これらの問題に対処するため,画像テンソル特徴を直接処理するための自己アテンション型プラグインモジュールであるSynthesizing Tensor Transformations (STT)を提案する。
問合せキー値間のドット積乗算を計算せずに、基本STTはテンソル変換からなり、視覚情報から合成注意重みを学習する。
STTシリーズの有効性を画像分類と画像キャプションで検証した。
実験により,提案したSTTは,上記の視覚課題における自己注意よりも頑健性を維持しつつ,競争性能を向上することが示された。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Retinal IPA: Iterative KeyPoints Alignment for Multimodal Retinal Imaging [11.70130626541926]
マルチモダリティ網膜画像間のマッチングと登録を強化するために,クロスモダリティ特徴を学習するための新しいフレームワークを提案する。
本モデルでは,従来の学習に基づく特徴検出と記述手法の成功を例に挙げる。
同じ画像の異なるオーグメンテーション間のセグメンテーション一貫性を強制することにより、自己指導的な方法で訓練される。
論文 参考訳(メタデータ) (2024-07-25T19:51:27Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Lightweight Structure-Aware Attention for Visual Understanding [16.860625620412943]
視覚変換器(ViT)は、自己注意演算子を用いた視覚表現学習において支配的なパラダイムとなっている。
本稿では,ログ線形複雑度の高い表現能力を有する軽量構造認識型注意演算子(LiSA)を提案する。
実験およびアブレーション実験により,提案した演算子に基づくViTsが,自己注意や他の既存演算子より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-29T15:20:14Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。