論文の概要: RSIR Transformer: Hierarchical Vision Transformer using Random Sampling
Windows and Important Region Windows
- arxiv url: http://arxiv.org/abs/2304.06250v1
- Date: Thu, 13 Apr 2023 04:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:51:46.551391
- Title: RSIR Transformer: Hierarchical Vision Transformer using Random Sampling
Windows and Important Region Windows
- Title(参考訳): rsirトランスフォーマー:ランダムサンプリングウィンドウと重要領域ウィンドウを用いた階層的視覚トランスフォーマー
- Authors: Zhemin Zhang, Xun Gong
- Abstract要約: 階層型視覚変換器のグローバルなモデリング能力を高めるために,2つの新しいアテンションモジュールを導入する。
RS-Winは、一様分布に従って、ランダムなイメージパッチをサンプリングしてウィンドウを構成する。
IR-Winは、アテンションマップ内の画像パッチの重みに応じてウィンドウを構成する。
- 参考スコア(独自算出の注目度): 1.583842747998493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformers have shown promising performance in various vision
tasks. However, the high costs of global self-attention remain challenging for
Transformers, especially for high-resolution vision tasks. Local self-attention
runs attention computation within a limited region for the sake of efficiency,
resulting in insufficient context modeling as their receptive fields are small.
In this work, we introduce two new attention modules to enhance the global
modeling capability of the hierarchical vision transformer, namely, random
sampling windows (RS-Win) and important region windows (IR-Win). Specifically,
RS-Win sample random image patches to compose the window, following a uniform
distribution, i.e., the patches in RS-Win can come from any position in the
image. IR-Win composes the window according to the weights of the image patches
in the attention map. Notably, RS-Win is able to capture global information
throughout the entire model, even in earlier, high-resolution stages. IR-Win
enables the self-attention module to focus on important regions of the image
and capture more informative features. Incorporated with these designs,
RSIR-Win Transformer demonstrates competitive performance on common vision
tasks.
- Abstract(参考訳): 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。
しかし、グローバル・セルフ・アテンションの高コストはトランスフォーマー、特に高解像度視覚タスクにとって依然として困難である。
局所的な自己注意は、効率性のために限られた領域内で注意計算を実行するため、受容場が小さいためコンテキストモデリングが不十分となる。
本研究では,階層型視覚変換器のグローバルなモデリング機能,すなわちランダムサンプリングウィンドウ(RS-Win)と重要な領域ウィンドウ(IR-Win)の2つの新しいアテンションモジュールを導入する。
特に、rs-winのサンプルランダムイメージパッチは、一様分布、すなわち、rs-winのパッチは、画像の任意の位置から来ることができる。
IR-Winは、アテンションマップ内の画像パッチの重みに応じてウィンドウを構成する。
特にRS-Winは、初期の高解像度の段階でも、モデル全体を通してグローバルな情報をキャプチャすることができる。
IR-Winは、自己認識モジュールが画像の重要な領域に集中し、より情報的な特徴をキャプチャすることを可能にする。
これらの設計を取り入れたRSIR-Win Transformerは、一般的な視覚タスクにおける競合性能を示す。
関連論文リスト
- HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z) - TransVPR: Transformer-based place recognition with multi-level attention
aggregation [9.087163485833058]
本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。
TransVPRは、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-06T10:20:24Z) - SimViT: Exploring a Simple Vision Transformer with sliding windows [3.3107339588116123]
視覚変換器に空間構造と局所情報を組み込む視覚変換器SimViTを導入する。
SimViTは、密集予測タスクのために異なるレイヤからマルチスケール階層的特徴を抽出する。
私たちのSimViT-Microは、ImageNet-1kデータセットで71.1%のトップ-1の精度を達成するのに、3.3Mパラメータしか必要としない。
論文 参考訳(メタデータ) (2021-12-24T15:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。