論文の概要: Convolutional Embedding Makes Hierarchical Vision Transformer Stronger
- arxiv url: http://arxiv.org/abs/2207.13317v1
- Date: Wed, 27 Jul 2022 06:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 12:58:59.676562
- Title: Convolutional Embedding Makes Hierarchical Vision Transformer Stronger
- Title(参考訳): 畳み込みによる階層的視覚トランスフォーマーの強化
- Authors: Cong Wang, Hongmin Xu, Xiong Zhang, Li Wang, Zhitong Zheng, and
Haifeng Liu
- Abstract要約: ビジョントランスフォーマー(ViT)は近年、コンピュータビジョンタスクの領域を支配しているが、訓練データ効率の低下と、適切な帰納バイアスを伴わない局所意味表現能力の低下に悩まされている。
CNNは本質的に地域を意識したセマンティクスを捉え、研究者はCNNをViTのアーキテクチャに戻して、ViTに望ましい帰納的バイアスを与えるよう促す。
本稿では,ハイブリッドCNN/ViTのマクロアーキテクチャが階層型ViTの性能をいかに向上させるかを検討する。
- 参考スコア(独自算出の注目度): 16.72943631060293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have recently dominated a range of computer vision
tasks, yet it suffers from low training data efficiency and inferior local
semantic representation capability without appropriate inductive bias.
Convolutional neural networks (CNNs) inherently capture regional-aware
semantics, inspiring researchers to introduce CNNs back into the architecture
of the ViTs to provide desirable inductive bias for ViTs. However, is the
locality achieved by the micro-level CNNs embedded in ViTs good enough? In this
paper, we investigate the problem by profoundly exploring how the macro
architecture of the hybrid CNNs/ViTs enhances the performances of hierarchical
ViTs. Particularly, we study the role of token embedding layers, alias
convolutional embedding (CE), and systemically reveal how CE injects desirable
inductive bias in ViTs. Besides, we apply the optimal CE configuration to 4
recently released state-of-the-art ViTs, effectively boosting the corresponding
performances. Finally, a family of efficient hybrid CNNs/ViTs, dubbed CETNets,
are released, which may serve as generic vision backbones. Specifically,
CETNets achieve 84.9% Top-1 accuracy on ImageNet-1K (training from scratch),
48.6% box mAP on the COCO benchmark, and 51.6% mIoU on the ADE20K,
substantially improving the performances of the corresponding state-of-the-art
baselines.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は近年,コンピュータビジョンタスクの領域を支配しているが,トレーニングデータの効率の低下や,適切な帰納バイアスを伴わない局所意味表現能力の低下に悩まされている。
畳み込みニューラルネットワーク(CNN)は、本質的には地域認識のセマンティクスをキャプチャし、研究者にViTのアーキテクチャにCNNを導入して、ViTに望ましい帰納バイアスを与えるよう促す。
しかし、ViTsに埋め込まれたマイクロレベルのCNNによって達成される局所性は十分か?
本稿では,ハイブリッドCNN/ViTのマクロアーキテクチャが階層型ViTの性能をいかに向上させるか,その問題を深く検討する。
特に,トークン埋込み層,エイリアス畳み込み層(CE)の役割について検討し,CEがViTに望ましい誘導バイアスを注入する方法を体系的に明らかにした。
さらに、最近リリースされた4つの最先端ViTに対して最適なCE構成を適用し、対応する性能を効果的に向上させる。
最後に、CETNetと呼ばれる効率的なハイブリッドCNN/ViTのファミリーがリリースされ、一般的なビジョンバックボーンとして機能する。
具体的には、CETNetはImageNet-1Kで84.9%、COCOベンチマークで48.6%、ADE20Kで51.6%のmIoUを達成し、対応する最先端のベースラインのパフォーマンスを大幅に改善した。
関連論文リスト
- RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization [8.346566205092433]
軽量畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、パラメータ効率と低レイテンシに好まれる。
本研究では,資源拘束型アプリケーションに適した多目的視覚バックボーンを開発するために,CNNとViTの相補的な利点について検討する。
論文 参考訳(メタデータ) (2024-06-23T04:11:12Z) - Structured Initialization for Attention in Vision Transformers [34.374054040300805]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャ上の帰納バイアスを持ち、小規模な問題に対してうまく機能する。
我々は、CNNに固有のアーキテクチャバイアスを、ViT内の初期化バイアスとして再解釈することができると論じる。
この洞察は、ViTsが大規模アプリケーションに対する柔軟性を維持しながら、小規模問題でも同じように機能する権限を付与する上で重要である。
論文 参考訳(メタデータ) (2024-04-01T14:34:47Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - Next-ViT: Next Generation Vision Transformer for Efficient Deployment in
Realistic Industrial Scenarios [19.94294348122248]
ほとんどの視覚変換器(ViT)は、現実的な産業展開シナリオにおいて、畳み込みニューラルネットワーク(CNN)ほど効率的に動作できない。
現実的な産業シナリオ,すなわちNext-ViTにおける効率的な展開のための次世代ビジョントランスフォーマーを提案する。
Next-ViTはレイテンシ/精度トレードオフの観点からCNNとViTの両方を支配している。
論文 参考訳(メタデータ) (2022-07-12T12:50:34Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training [29.20567759071523]
ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-07T07:56:50Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。