論文の概要: Axially Expanded Windows for Local-Global Interaction in Vision
Transformers
- arxiv url: http://arxiv.org/abs/2209.08726v1
- Date: Mon, 19 Sep 2022 02:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:19:10.807047
- Title: Axially Expanded Windows for Local-Global Interaction in Vision
Transformers
- Title(参考訳): 視覚トランスフォーマーにおける局所的グローバル相互作用のための軸拡大窓
- Authors: Zhemin Zhang, Xun Gong
- Abstract要約: グローバルな自己注意は、特に高解像度の視覚タスクのために計算するのに非常に高価である。
本研究では,局所窓内における微粒な自己アテンションと水平軸および垂直軸における粗粒な自己アテンションを実現する軸方向拡張型ウィンドウ自己アテンション機構を開発した。
- 参考スコア(独自算出の注目度): 1.583842747998493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformers have shown promising performance in various vision
tasks. A challenging issue in Transformer design is that global self-attention
is very expensive to compute, especially for the high-resolution vision tasks.
Local self-attention performs attention computation within a local region to
improve its efficiency, which leads to their receptive fields in a single
attention layer are not large enough, resulting in insufficient context
modeling. When observing a scene, humans usually focus on a local region while
attending to non-attentional regions at coarse granularity. Based on this
observation, we develop the axially expanded window self-attention mechanism
that performs fine-grained self-attention within the local window and
coarse-grained self-attention in the horizontal and vertical axes, and thus can
effectively capturing both short- and long-range visual dependencies.
- Abstract(参考訳): 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。
Transformer設計の課題は、特に高解像度の視覚タスクにおいて、グローバルな自己注意が計算に非常に高価であることである。
局所的な自己注意は、その効率を向上させるために局所領域内で注意計算を行い、単一の注意層における受容場が十分に大きくない結果、結果としてコンテキストモデリングが不十分になる。
シーンを観察する際、人間は通常、粗い粒度の非注意領域に出席しながら、局所に集中する。
この観察に基づいて, 局所窓内に細粒の自己付着を行い, 水平および垂直軸に粗粒の自己付着を行い, 短距離および長距離の視覚依存性を効果的に捕捉する軸拡大型窓自己付着機構を開発した。
関連論文リスト
- LocalEyenet: Deep Attention framework for Localization of Eyes [0.609170287691728]
我々は、エンドツーエンドにトレーニング可能な眼領域のみをローカライズするためのLocalEyenetという、粗大なアーキテクチャを提案している。
本モデルは,クロスデータセット評価やリアルタイム眼球の局所化において,優れた一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-13T06:35:45Z) - Semantic-Aware Local-Global Vision Transformer [24.55333039729068]
セマンティック・アウェア・ローカル・グローバル・ビジョン・トランス(SALG)を提案する。
我々のSALGは教師なしの方法でセマンティックセグメンテーションを行い、画像の根底にあるセマンティックセグメンテーションを探索する。
このモデルでは,各トークンの特徴を学習する際に,グローバルなビューを得ることができる。
論文 参考訳(メタデータ) (2022-11-27T03:16:00Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z) - TransVPR: Transformer-based place recognition with multi-level attention
aggregation [9.087163485833058]
本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。
TransVPRは、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-06T10:20:24Z) - Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:12:24Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。