論文の概要: Ripple Attention for Visual Perception with Sub-quadratic Complexity
- arxiv url: http://arxiv.org/abs/2110.02453v1
- Date: Wed, 6 Oct 2021 02:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 06:17:13.879577
- Title: Ripple Attention for Visual Perception with Sub-quadratic Complexity
- Title(参考訳): サブクアドラティックな複雑度をもつ視覚知覚のためのリップル注意
- Authors: Lin Zheng, Huijie Pan, Lingpeng Kong
- Abstract要約: トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。
視覚知覚のためのサブクワッドアテンション機構であるリップルアテンションを提案する。
ripple attentionでは、クエリに対する異なるトークンのコントリビューションは、2次元空間における相対空間距離に対して重み付けされる。
- 参考スコア(独自算出の注目度): 7.425337104538644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures are now central to modeling in natural language
processing tasks. At its heart is the attention mechanism, which enables
effective modeling of long-term dependencies in a sequence. Recently,
transformers have been successfully applied in the computer vision domain,
where 2D images are first segmented into patches and then treated as 1D
sequences. Such linearization, however, impairs the notion of spatial locality
in images, which bears important visual clues. To bridge the gap, we propose
ripple attention, a sub-quadratic attention mechanism for visual perception. In
ripple attention, contributions of different tokens to a query are weighted
with respect to their relative spatial distances in the 2D space. To favor
correlations with vicinal tokens yet permit long-term dependencies, we derive
the spatial weights through a stick-breaking transformation. We further design
a dynamic programming algorithm that computes weighted contributions for all
queries in linear observed time, taking advantage of the summed-area table and
recent advances in linearized attention. Extensive experiments and analyses
demonstrate the effectiveness of ripple attention on various visual tasks.
- Abstract(参考訳): トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。
中心となるのはアテンションメカニズムであり、シーケンス内の長期依存の効果的なモデリングを可能にする。
近年,コンピュータビジョン領域において,まず2次元画像をパッチに分割し,次いで1次元シーケンスとして扱うトランスフォーマーが成功している。
しかし、このような線形化は、重要な視覚的手がかりを持つ画像における空間的局所性の概念を損なう。
このギャップを埋めるために,視覚知覚のためのサブクアドラティックアテンション機構であるリップルアテンションを提案する。
ripple attentionでは、2次元空間における相対空間距離に関して、クエリに対する異なるトークンの寄与を重み付けする。
長期依存を許さないビシナルトークンとの相関性を求めるため,スティック破れ変換により空間重みを導出する。
さらに,全問合せに対する重み付き貢献度を線形観測時間で計算する動的プログラミングアルゴリズムを,サムド領域表と近年の線形注意の進歩を活かして設計する。
広汎な実験と分析は、様々な視覚的タスクにおけるリップル注意の有効性を示す。
関連論文リスト
- Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-19T18:38:11Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Cross-Modal Learning with 3D Deformable Attention for Action Recognition [4.128256616073278]
本稿では,適応的な注意場を持つ行動認識のための新しい3次元変形可能な変換器と時間的学習方式を提案する。
提案した3次元変形可能な変圧器が試験された。
60,.120 FineGYM と PennActionAction のデータセットは、事前訓練された最先端手法よりも良い結果を示した。
論文 参考訳(メタデータ) (2022-12-12T00:31:08Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。