論文の概要: Grafting Vision Transformers
- arxiv url: http://arxiv.org/abs/2210.15943v2
- Date: Mon, 3 Apr 2023 14:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:29:36.502860
- Title: Grafting Vision Transformers
- Title(参考訳): グラフト視覚変換器
- Authors: Jongwoo Park, Kumara Kahatapitiya, Donghyun Kim, Shivchander
Sudalairaj, Quanfu Fan, Michael S. Ryoo
- Abstract要約: ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
GrafTはグローバルな依存関係とネットワーク全体のマルチスケール情報を考慮している。
任意の深さで分岐する柔軟性があり、バックボーンのパラメータと計算の大部分を共有できる。
- 参考スコア(独自算出の注目度): 42.71480918208436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have recently become the state-of-the-art across
many computer vision tasks. In contrast to convolutional networks (CNNs), ViTs
enable global information sharing even within shallow layers of a network,
i.e., among high-resolution features. However, this perk was later overlooked
with the success of pyramid architectures such as Swin Transformer, which show
better performance-complexity trade-offs. In this paper, we present a simple
and efficient add-on component (termed GrafT) that considers global
dependencies and multi-scale information throughout the network, in both high-
and low-resolution features alike. It has the flexibility of branching out at
arbitrary depths and shares most of the parameters and computations of the
backbone. GrafT shows consistent gains over various well-known models which
includes both hybrid and pure Transformer types, both homogeneous and pyramid
structures, and various self-attention methods. In particular, it largely
benefits mobile-size models by providing high-level semantics. On the
ImageNet-1k dataset, GrafT delivers +3.9%, +1.4%, and +1.9% top-1 accuracy
improvement to DeiT-T, Swin-T, and MobileViT-XXS, respectively. Our code and
models will be made available.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
畳み込みネットワーク(CNN)とは対照的に、ViTはネットワークの浅い層、すなわち高解像度の機能でもグローバルな情報共有を可能にする。
しかし、後にスウィントランス(swin transformer)のようなピラミッドアーキテクチャが成功し、パフォーマンスと複雑さのトレードオフが向上した。
本稿では,ネットワーク全体のグローバル依存性とマルチスケール情報を考慮した簡易かつ効率的なアドオンコンポーネント(グラフト)を提案する。
任意の深さで分岐する柔軟性があり、バックボーンのパラメータと計算のほとんどを共有する。
GrafTは、ハイブリッドトランスフォーマー型と純粋なトランスフォーマー型の両方、均質構造とピラミッド構造の両方、そして様々な自己注意法を含む、よく知られたモデルに対して一貫した利得を示す。
特に、ハイレベルなセマンティクスを提供することで、モバイルサイズのモデルに大きく貢献する。
ImageNet-1kデータセットでは、DeiT-T、Swin-T、MobileViT-XXSに+3.9%、+1.4%、+1.9%の精度改善が提供されている。
私たちのコードとモデルは利用可能になります。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。