論文の概要: ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions
- arxiv url: http://arxiv.org/abs/2403.07392v2
- Date: Fri, 15 Mar 2024 09:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 10:58:56.894341
- Title: ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions
- Title(参考訳): ViT-CoMer:Dense予測のための畳み込みマルチスケール特徴相互作用を用いた視覚変換器
- Authors: Chunlong Xia, Xinliang Wang, Feng Lv, Xin Hao, Yifeng Shi,
- Abstract要約: Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、密集した予測タスクではうまく機能しない。
コンボリューショナル・マルチスケール機能を有するVTバックボーンであるViT-CoMerについて述べる。
階層的特徴をまたいだマルチスケールの融合を行う,シンプルで効率的なCNN-Transformer双方向核融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 4.554319452683839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Vision Transformer (ViT) has achieved significant success in computer vision, it does not perform well in dense prediction tasks due to the lack of inner-patch information interaction and the limited diversity of feature scale. Most existing studies are devoted to designing vision-specific transformers to solve the above problems, which introduce additional pre-training costs. Therefore, we present a plain, pre-training-free, and feature-enhanced ViT backbone with Convolutional Multi-scale feature interaction, named ViT-CoMer, which facilitates bidirectional interaction between CNN and transformer. Compared to the state-of-the-art, ViT-CoMer has the following advantages: (1) We inject spatial pyramid multi-receptive field convolutional features into the ViT architecture, which effectively alleviates the problems of limited local information interaction and single-feature representation in ViT. (2) We propose a simple and efficient CNN-Transformer bidirectional fusion interaction module that performs multi-scale fusion across hierarchical features, which is beneficial for handling dense prediction tasks. (3) We evaluate the performance of ViT-CoMer across various dense prediction tasks, different frameworks, and multiple advanced pre-training. Notably, our ViT-CoMer-L achieves 64.3% AP on COCO val2017 without extra training data, and 62.1% mIoU on ADE20K val, both of which are comparable to state-of-the-art methods. We hope ViT-CoMer can serve as a new backbone for dense prediction tasks to facilitate future research. The code will be released at https://github.com/Traffic-X/ViT-CoMer.
- Abstract(参考訳): Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、内部パッチ情報相互作用の欠如や機能スケールの多様性の制限により、密集した予測タスクではうまく機能しない。
既存の研究の多くは、上記の問題を解決するために視覚特異的なトランスフォーマーを設計することに集中しており、追加の事前学習コストがもたらされる。
そこで我々は,CNNとトランスフォーマーの双方向インタラクションを容易にする,畳み込み型マルチスケール機能インタラクションを備えた,平らで事前学習のない,機能強化型VTバックボーンViT-CoMerを提案する。
現状と比較して、VT-CoMerには次のような利点がある: 1) 空間ピラミッドの多受容場畳み込み特性をViTアーキテクチャに注入することで、VTにおける限られた局所情報相互作用や単一機能表現の問題を効果的に軽減する。
2) 階層的特徴にまたがるマルチスケールの融合を行うCNN-Transformer双方向融合モジュールを提案する。
(3)ViT-CoMerの性能は,多種多彩な予測タスク,異なるフレームワーク,複数の先進的な事前学習で評価する。
特に、私たちのViT-CoMer-Lは、余分なトレーニングデータなしでCOCO val2017で64.3%AP、ADE20K valで62.1%mIoUを達成した。
ViT-CoMerは、より密集した予測タスクのための新しいバックボーンとして機能し、将来の研究を促進することを願っている。
コードはhttps://github.com/Traffic-X/ViT-CoMerで公開される。
関連論文リスト
- FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - SimViT: Exploring a Simple Vision Transformer with sliding windows [3.3107339588116123]
視覚変換器に空間構造と局所情報を組み込む視覚変換器SimViTを導入する。
SimViTは、密集予測タスクのために異なるレイヤからマルチスケール階層的特徴を抽出する。
私たちのSimViT-Microは、ImageNet-1kデータセットで71.1%のトップ-1の精度を達成するのに、3.3Mパラメータしか必要としない。
論文 参考訳(メタデータ) (2021-12-24T15:18:20Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。