論文の概要: Grafting Vision Transformers
- arxiv url: http://arxiv.org/abs/2210.15943v1
- Date: Fri, 28 Oct 2022 07:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:25:56.788003
- Title: Grafting Vision Transformers
- Title(参考訳): グラフト視覚変換器
- Authors: Jongwoo Park, Kumara Kahatapitiya, Donghyun Kim, Shivchander
Sudalairaj, Quanfu Fan, Michael S. Ryoo
- Abstract要約: ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
ネットワーク全体にわたるグローバル依存関係とマルチスケール情報を考慮した,シンプルで効率的なアドオンコンポーネント(GrafT)を提案する。
- 参考スコア(独自算出の注目度): 42.71480918208436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have recently become the state-of-the-art across
many computer vision tasks. In contrast to convolutional networks (CNNs), ViTs
enable global information sharing even within shallow layers of a network,
i.e., among high-resolution features. However, this perk was later overlooked
with the success of pyramid architectures such as Swin Transformer, which show
better performance-complexity trade-offs. In this paper, we present a simple
and efficient add-on component (termed GrafT) that considers global
dependencies and multi-scale information throughout the network, in both high-
and low-resolution features alike. GrafT can be easily adopted in both
homogeneous and pyramid Transformers while showing consistent gains. It has the
flexibility of branching-out at arbitrary depths, widening a network with
multiple scales. This grafting operation enables us to share most of the
parameters and computations of the backbone, adding only minimal complexity,
but with a higher yield. In fact, the process of progressively compounding
multi-scale receptive fields in GrafT enables communications between local
regions. We show the benefits of the proposed method on multiple benchmarks,
including image classification (ImageNet-1K), semantic segmentation (ADE20K),
object detection and instance segmentation (COCO2017). Our code and models will
be made available.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
畳み込みネットワーク(CNN)とは対照的に、ViTはネットワークの浅い層、すなわち高解像度の機能でもグローバルな情報共有を可能にする。
しかし、後にスウィントランス(swin transformer)のようなピラミッドアーキテクチャが成功し、パフォーマンスと複雑さのトレードオフが向上した。
本稿では,ネットワーク全体のグローバル依存性とマルチスケール情報を考慮した簡易かつ効率的なアドオンコンポーネント(グラフト)を提案する。
GrafTは均一なゲインを示しながら、均一なトランスフォーマーとピラミッドトランスフォーマーの両方で容易に採用できる。
任意の深さで分岐する柔軟性があり、複数のスケールでネットワークを広げる。
このグラフト操作により、バックボーンのパラメータと計算の大部分を共有でき、最小限の複雑さしか加えず、より高収率で実現できる。
実際、グラフトにおける複数スケールの受容野を段階的に複合するプロセスは、局所的な領域間の通信を可能にする。
本稿では,画像分類(imagenet-1k),意味セグメンテーション(ade20k),オブジェクト検出およびインスタンスセグメンテーション(coco2017)など,複数のベンチマークにおいて提案手法の利点を示す。
私たちのコードとモデルは利用可能になります。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。