論文の概要: Synthesizer Based Efficient Self-Attention for Vision Tasks
- arxiv url: http://arxiv.org/abs/2201.01410v2
- Date: Sun, 29 Sep 2024 06:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:07.064714
- Title: Synthesizer Based Efficient Self-Attention for Vision Tasks
- Title(参考訳): 合成器による視覚タスクの効率的な自己認識
- Authors: Guangyang Zhu, Jianfeng Zhang, Yuanzhi Feng, Hai Lan,
- Abstract要約: セルフアテンションモジュールは、画像分類や画像キャプションなどの視覚タスクのパフォーマンスを高めながら、長距離関係のキャプチャにおいて優れた能力を示す。
本稿では,画像テンソル特徴を直接処理するための自己注意型プラグインモジュール,すなわちSynthesizing Transformations (STT)を提案する。
- 参考スコア(独自算出の注目度): 10.822515889248676
- License:
- Abstract: Self-attention module shows outstanding competence in capturing long-range relationships while enhancing performance on vision tasks, such as image classification and image captioning. However, the self-attention module highly relies on the dot product multiplication and dimension alignment among query-key-value features, which cause two problems: (1) The dot product multiplication results in exhaustive and redundant computation. (2) Due to the visual feature map often appearing as a multi-dimensional tensor, reshaping the scale of the tensor feature to adapt to the dimension alignment might destroy the internal structure of the tensor feature map. To address these problems, this paper proposes a self-attention plug-in module with its variants, namely, Synthesizing Tensor Transformations (STT), for directly processing image tensor features. Without computing the dot-product multiplication among query-key-value, the basic STT is composed of the tensor transformation to learn the synthetic attention weight from visual information. The effectiveness of STT series is validated on the image classification and image caption. Experiments show that the proposed STT achieves competitive performance while keeping robustness compared to self-attention in the aforementioned vision tasks.
- Abstract(参考訳): セルフアテンションモジュールは、画像分類や画像キャプションなどの視覚タスクのパフォーマンスを高めながら、長距離関係のキャプチャにおいて優れた能力を示す。
しかし、自己注意モジュールは、問合せキー値の特徴間のドット積乗法と次元アライメントに強く依存しており、(1)ドット積乗法は徹底的かつ冗長な計算をもたらす。
2) 多次元テンソルとしてしばしば現れる視覚的特徴写像のため,次元アライメントに適応するテンソル特徴のスケールを再構成することで,テンソル特徴写像の内部構造が破壊される可能性がある。
これらの問題に対処するため,画像テンソル特徴を直接処理するための自己アテンション型プラグインモジュールであるSynthesizing Tensor Transformations (STT)を提案する。
問合せキー値間のドット積乗算を計算せずに、基本STTはテンソル変換からなり、視覚情報から合成注意重みを学習する。
STTシリーズの有効性を画像分類と画像キャプションで検証した。
実験により,提案したSTTは,上記の視覚課題における自己注意よりも頑健性を維持しつつ,競争性能を向上することが示された。
関連論文リスト
- Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Lightweight Structure-Aware Attention for Visual Understanding [16.860625620412943]
視覚変換器(ViT)は、自己注意演算子を用いた視覚表現学習において支配的なパラダイムとなっている。
本稿では,ログ線形複雑度の高い表現能力を有する軽量構造認識型注意演算子(LiSA)を提案する。
実験およびアブレーション実験により,提案した演算子に基づくViTsが,自己注意や他の既存演算子より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-29T15:20:14Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Segmenting two-dimensional structures with strided tensor networks [1.952097552284465]
教師付き画像分割のためのテンソルネットワークの新規な定式化を提案する。
提案モデルはバックプロパゲーションを用いてエンドツーエンドでトレーニング可能である。
評価の結果,ストレートテンソルネットワークはcnnモデルに比べて競争性が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-13T11:06:34Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。