論文の概要: Lightweight Structure-Aware Attention for Visual Understanding
- arxiv url: http://arxiv.org/abs/2211.16289v2
- Date: Thu, 03 Jul 2025 12:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:12.279881
- Title: Lightweight Structure-Aware Attention for Visual Understanding
- Title(参考訳): 軽量構造認識による視覚理解
- Authors: Heeseung Kwon, Francisco M. Castro, Manuel J. Marin-Jimenez, Nicolas Guil, Karteek Alahari,
- Abstract要約: 我々は,軽量構造認識注意(LiSA)と呼ばれる新しい注意演算子を提案する。
我々のオペレーターは、アテンションカーネルを構造パターンの学習によりより差別的に変換する。
実験と解析により,提案演算子は自己注意や他の既存演算子よりも優れることを示した。
- 参考スコア(独自算出の注目度): 13.72466817835681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention operator has been widely used as a basic brick in visual understanding since it provides some flexibility through its adjustable kernels. However, this operator suffers from inherent limitations: (1) the attention kernel is not discriminative enough, resulting in high redundancy, and (2) the complexity in computation and memory is quadratic in the sequence length. In this paper, we propose a novel attention operator, called Lightweight Structure-aware Attention (LiSA), which has a better representation power with log-linear complexity. Our operator transforms the attention kernels to be more discriminative by learning structural patterns. These structural patterns are encoded by exploiting a set of relative position embeddings (RPEs) as multiplicative weights, thereby improving the representation power of the attention kernels. Additionally, the RPEs are approximated to obtain log-linear complexity. Our experiments and analyses demonstrate that the proposed operator outperforms self-attention and other existing operators, achieving state-of-the-art results on ImageNet-1K and other downstream tasks such as video action recognition on Kinetics-400, object detection \& instance segmentation on COCO, and semantic segmentation on ADE-20K.
- Abstract(参考訳): アテンション演算子は、調整可能なカーネルを通じてある程度の柔軟性を提供するため、視覚的理解の基本的なブロックとして広く使用されている。
しかし、この演算子は、(1)注目カーネルが十分に識別できないため、高い冗長性が得られ、(2)計算とメモリの複雑さは、シーケンス長の2乗である。
本稿では,軽量構造認識注意(LiSA, Lightweight Structure-Aware Attention)と呼ばれる新しい注意演算子を提案する。
我々のオペレーターは、アテンションカーネルを構造パターンの学習によりより差別的に変換する。
これらの構造パターンは、相対的な位置埋め込み(RPE)の集合を乗法重みとして利用することにより符号化され、アテンションカーネルの表現力を向上する。
さらに、RPEはログ線形複雑性を得るために近似される。
実験と分析の結果,提案手法は,ImageNet-1K や Kinetics-400 上のビデオアクション認識,COCO 上のオブジェクト検出,ADE-20K 上のセマンティックセマンティックセマンティックセマンティクスなどのダウンストリームタスクにおいて,自己注意や他の既存演算子よりも優れていた。
関連論文リスト
- ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models [39.520825264698374]
視覚変換器(ViT)は、グローバルな自己注意を通じて顕著な進歩を遂げてきたが、その二次的な複雑さは高解像度入力では禁止される可能性がある。
本稿では、リッチなViT表現を線形時間再帰型モデルに変換するクロスアーキテクチャ蒸留フレームワークであるViT-Linearizerについて述べる。
この結果から,RNNに基づく大規模視覚タスクの優れた実現可能性を示し,理論的効率性と実世界の実践とのギャップを埋めることができた。
論文 参考訳(メタデータ) (2025-03-30T15:35:24Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction [29.12836710966048]
本稿では,トークン数に応じて計算複雑性が線形にスケールする新しいトランスフォーマーアテンション演算子を提案する。
本研究は, トランスフォーマーアーキテクチャの成功に対して, ペアワイズ類似性スタイルの注意機構が重要であるという従来の知恵に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2024-12-23T18:59:21Z) - Graph Structure Refinement with Energy-based Contrastive Learning [56.957793274727514]
グラフの構造と表現を学習するための生成訓練と識別訓練のジョイントに基づく教師なし手法を提案する。
本稿では,ECL-GSR(Energy-based Contrastive Learning)によるグラフ構造再構成(GSR)フレームワークを提案する。
ECL-GSRは、主要なベースラインに対するサンプルやメモリの少ない高速なトレーニングを実現し、下流タスクの単純さと効率性を強調している。
論文 参考訳(メタデータ) (2024-12-20T04:05:09Z) - Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。
その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。
構築した自己意識を近似するFibottention Architectureを提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Multiscale Attention via Wavelet Neural Operators for Vision
Transformers [0.0]
トランスフォーマーはコンピュータビジョンにおいて広く成功しており、その核心には自己認識(SA)機構がある。
標準SA機構はシークエンスの長さと二次的な複雑さを持ち、高解像度のビジョンに現れる長いシークエンスにその有用性を妨げている。
本稿では,シーケンスサイズが線形に複雑になるウェーブレットニューラル演算子を利用して,MWA(Multiscale Wavelet Attention)を導入する。
論文 参考訳(メタデータ) (2023-03-22T09:06:07Z) - Synthesizer Based Efficient Self-Attention for Vision Tasks [10.822515889248676]
セルフアテンションモジュールは、画像分類や画像キャプションなどの視覚タスクのパフォーマンスを高めながら、長距離関係のキャプチャにおいて優れた能力を示す。
本稿では,画像テンソル特徴を直接処理するための自己注意型プラグインモジュール,すなわちSynthesizing Transformations (STT)を提案する。
論文 参考訳(メタデータ) (2022-01-05T02:07:32Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。