論文の概要: Ripple Attention for Visual Perception with Sub-quadratic Complexity
- arxiv url: http://arxiv.org/abs/2110.02453v1
- Date: Wed, 6 Oct 2021 02:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 06:17:13.879577
- Title: Ripple Attention for Visual Perception with Sub-quadratic Complexity
- Title(参考訳): サブクアドラティックな複雑度をもつ視覚知覚のためのリップル注意
- Authors: Lin Zheng, Huijie Pan, Lingpeng Kong
- Abstract要約: トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。
視覚知覚のためのサブクワッドアテンション機構であるリップルアテンションを提案する。
ripple attentionでは、クエリに対する異なるトークンのコントリビューションは、2次元空間における相対空間距離に対して重み付けされる。
- 参考スコア(独自算出の注目度): 7.425337104538644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures are now central to modeling in natural language
processing tasks. At its heart is the attention mechanism, which enables
effective modeling of long-term dependencies in a sequence. Recently,
transformers have been successfully applied in the computer vision domain,
where 2D images are first segmented into patches and then treated as 1D
sequences. Such linearization, however, impairs the notion of spatial locality
in images, which bears important visual clues. To bridge the gap, we propose
ripple attention, a sub-quadratic attention mechanism for visual perception. In
ripple attention, contributions of different tokens to a query are weighted
with respect to their relative spatial distances in the 2D space. To favor
correlations with vicinal tokens yet permit long-term dependencies, we derive
the spatial weights through a stick-breaking transformation. We further design
a dynamic programming algorithm that computes weighted contributions for all
queries in linear observed time, taking advantage of the summed-area table and
recent advances in linearized attention. Extensive experiments and analyses
demonstrate the effectiveness of ripple attention on various visual tasks.
- Abstract(参考訳): トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。
中心となるのはアテンションメカニズムであり、シーケンス内の長期依存の効果的なモデリングを可能にする。
近年,コンピュータビジョン領域において,まず2次元画像をパッチに分割し,次いで1次元シーケンスとして扱うトランスフォーマーが成功している。
しかし、このような線形化は、重要な視覚的手がかりを持つ画像における空間的局所性の概念を損なう。
このギャップを埋めるために,視覚知覚のためのサブクアドラティックアテンション機構であるリップルアテンションを提案する。
ripple attentionでは、2次元空間における相対空間距離に関して、クエリに対する異なるトークンの寄与を重み付けする。
長期依存を許さないビシナルトークンとの相関性を求めるため,スティック破れ変換により空間重みを導出する。
さらに,全問合せに対する重み付き貢献度を線形観測時間で計算する動的プログラミングアルゴリズムを,サムド領域表と近年の線形注意の進歩を活かして設計する。
広汎な実験と分析は、様々な視覚的タスクにおけるリップル注意の有効性を示す。
関連論文リスト
- Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Cross-Modal Learning with 3D Deformable Attention for Action Recognition [4.128256616073278]
本稿では,適応的な注意場を持つ行動認識のための新しい3次元変形可能な変換器と時間的学習方式を提案する。
提案した3次元変形可能な変圧器が試験された。
60,.120 FineGYM と PennActionAction のデータセットは、事前訓練された最先端手法よりも良い結果を示した。
論文 参考訳(メタデータ) (2022-12-12T00:31:08Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Rotate to Attend: Convolutional Triplet Attention Module [21.228370317693244]
3分岐構造を用いた新しい注意重み計算法である三重項注意法を提案する。
本手法は単純かつ効率的であり,アドオンモジュールとして従来のバックボーンネットワークに簡単に接続できる。
ImageNet-1k上の画像分類や,MSCOCOおよびPASCAL VOCデータセット上でのオブジェクト検出など,様々な課題に対する本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-06T21:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。