論文の概要: Dynamic Grained Encoder for Vision Transformers
- arxiv url: http://arxiv.org/abs/2301.03831v1
- Date: Tue, 10 Jan 2023 07:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:55:48.688494
- Title: Dynamic Grained Encoder for Vision Transformers
- Title(参考訳): 視覚トランスフォーマの動的粒度エンコーダ
- Authors: Lin Song, Songyang Zhang, Songtao Liu, Zeming Li, Xuming He, Hongbin
Sun, Jian Sun, Nanning Zheng
- Abstract要約: 本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
- 参考スコア(独自算出の注目度): 150.02797954201424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers, the de-facto standard for language modeling, have been recently
applied for vision tasks. This paper introduces sparse queries for vision
transformers to exploit the intrinsic spatial redundancy of natural images and
save computational costs. Specifically, we propose a Dynamic Grained Encoder
for vision transformers, which can adaptively assign a suitable number of
queries to each spatial region. Thus it achieves a fine-grained representation
in discriminative regions while keeping high efficiency. Besides, the dynamic
grained encoder is compatible with most vision transformer frameworks. Without
bells and whistles, our encoder allows the state-of-the-art vision transformers
to reduce computational complexity by 40%-60% while maintaining comparable
performance on image classification. Extensive experiments on object detection
and segmentation further demonstrate the generalizability of our approach. Code
is available at https://github.com/StevenGrove/vtpack.
- Abstract(参考訳): 言語モデリングのデファクトスタンダードであるtransformersが、視覚タスクに最近適用された。
本稿では,自然画像の空間的冗長性を生かして計算コストを節約するために,視覚トランスフォーマのスパースクエリを提案する。
具体的には、各空間領域に適切な数のクエリを適応的に割り当てることができる視覚変換器用の動的グラインドエンコーダを提案する。
これにより、高い効率を維持しながら、識別領域におけるきめ細かい表現を実現する。
さらに、動的粒度のエンコーダは、ほとんどのビジョントランスフォーマーフレームワークと互換性がある。
ベルやホイッスルがなければ、最先端の視覚トランスフォーマーは、画像分類で同等の性能を維持しつつ、計算の複雑さを40%から60%削減できます。
対象検出とセグメンテーションに関する広範な実験により,本手法の一般化性がさらに証明された。
コードはhttps://github.com/StevenGrove/vtpackで入手できる。
関連論文リスト
- Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - Searching Intrinsic Dimensions of Vision Transformers [6.004704152622424]
我々は,物体検出などの複雑な視覚タスクに対して,視覚変換器のバックボーンを刈り取る方法であるSiDTを提案する。
CIFAR-100とCOCOデータセットの実験は、刈り取られた20%または40%の次元/パラメータを持つバックボーンが、未刈取モデルと同じような、あるいはそれ以上のパフォーマンスを持つことを示した。
論文 参考訳(メタデータ) (2022-04-16T05:16:35Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。