論文の概要: Lightweight Structure-Aware Attention for Visual Understanding
- arxiv url: http://arxiv.org/abs/2211.16289v1
- Date: Tue, 29 Nov 2022 15:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:38:57.819736
- Title: Lightweight Structure-Aware Attention for Visual Understanding
- Title(参考訳): 軽量構造認識による視覚理解
- Authors: Heeseung Kwon, Francisco M. Castro, Manuel J. Marin-Jimenez, Nicolas
Guil, Karteek Alahari
- Abstract要約: 視覚変換器(ViT)は、自己注意演算子を用いた視覚表現学習において支配的なパラダイムとなっている。
本稿では,ログ線形複雑度の高い表現能力を有する軽量構造認識型注意演算子(LiSA)を提案する。
実験およびアブレーション実験により,提案した演算子に基づくViTsが,自己注意や他の既存演算子より優れていることが示された。
- 参考スコア(独自算出の注目度): 16.860625620412943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have become a dominant paradigm for visual
representation learning with self-attention operators. Although these operators
provide flexibility to the model with their adjustable attention kernels, they
suffer from inherent limitations: (1) the attention kernel is not
discriminative enough, resulting in high redundancy of the ViT layers, and (2)
the complexity in computation and memory is quadratic in the sequence length.
In this paper, we propose a novel attention operator, called lightweight
structure-aware attention (LiSA), which has a better representation power with
log-linear complexity. Our operator learns structural patterns by using a set
of relative position embeddings (RPEs). To achieve log-linear complexity, the
RPEs are approximated with fast Fourier transforms. Our experiments and
ablation studies demonstrate that ViTs based on the proposed operator
outperform self-attention and other existing operators, achieving
state-of-the-art results on ImageNet, and competitive results on other visual
understanding benchmarks such as COCO and Something-Something-V2. The source
code of our approach will be released online.
- Abstract(参考訳): 視覚トランスフォーマー(vits)は自己照準演算子を用いた視覚表現学習において支配的なパラダイムとなっている。
これらの演算子は、調整可能なアテンションカーネルでモデルに柔軟性を提供するが、(1)アテンションカーネルは十分に識別できないため、ViT層の冗長性が高く、(2)計算とメモリの複雑さはシーケンス長で2次的である。
本稿では,より優れた表現力と対数線形複雑性を有する軽量構造認識注意(lisa)と呼ばれる新しい注意演算子を提案する。
演算子は相対的な位置埋め込み(RPE)を用いて構造パターンを学習する。
対数線形複雑性を達成するために、RPEは高速フーリエ変換で近似される。
実験とアブレーション実験により,提案手法に基づくvitsが自己着脱や他の既存演算子を上回り,imagenetで最先端の成果を達成し,coco や something-something-v2 などの視覚理解ベンチマークで競合結果が得られた。
このアプローチのソースコードはオンラインで公開されます。
関連論文リスト
- Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。
その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。
構築した自己意識を近似するFibottention Architectureを提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Multiscale Attention via Wavelet Neural Operators for Vision
Transformers [0.0]
トランスフォーマーはコンピュータビジョンにおいて広く成功しており、その核心には自己認識(SA)機構がある。
標準SA機構はシークエンスの長さと二次的な複雑さを持ち、高解像度のビジョンに現れる長いシークエンスにその有用性を妨げている。
本稿では,シーケンスサイズが線形に複雑になるウェーブレットニューラル演算子を利用して,MWA(Multiscale Wavelet Attention)を導入する。
論文 参考訳(メタデータ) (2023-03-22T09:06:07Z) - Synthesizer Based Efficient Self-Attention for Vision Tasks [10.822515889248676]
セルフアテンションモジュールは、画像分類や画像キャプションなどの視覚タスクのパフォーマンスを高めながら、長距離関係のキャプチャにおいて優れた能力を示す。
本稿では,画像テンソル特徴を直接処理するための自己注意型プラグインモジュール,すなわちSynthesizing Transformations (STT)を提案する。
論文 参考訳(メタデータ) (2022-01-05T02:07:32Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。