論文の概要: Modulating CNN Features with Pre-Trained ViT Representations for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2501.16981v1
- Date: Tue, 28 Jan 2025 14:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:23.730288
- Title: Modulating CNN Features with Pre-Trained ViT Representations for Open-Vocabulary Object Detection
- Title(参考訳): オープン語彙オブジェクト検出のための事前学習型ViT表現によるCNN特徴量の制御
- Authors: Xiangyu Gao, Yu Dai, Benliu Qiu, Hongliang Li,
- Abstract要約: We propose a novel two-branch backbone network design, named as ViT-Feature-Modulated Multi-Scale Convolutional network (VMCNet)。
VMCNetは、トレーニング可能な畳み込みブランチ、凍結された事前訓練されたViTブランチ、フィーチャ変調モジュールで構成されている。
提案された混合構造により、検出器はより新しいカテゴリーを発見する可能性が高くなる。
- 参考スコア(独自算出の注目度): 10.28604766040337
- License:
- Abstract: Owing to large-scale image-text contrastive training, pre-trained vision language model (VLM) like CLIP shows superior open-vocabulary recognition ability. Most existing open-vocabulary object detectors attempt to utilize the pre-trained VLM to attain generative representation. F-ViT uses the pre-trained visual encoder as the backbone network and freezes it during training. However, the frozen backbone doesn't benefit from the labeled data to strengthen the representation. Therefore, we propose a novel two-branch backbone network design, named as ViT-Feature-Modulated Multi-Scale Convolutional network (VMCNet). VMCNet consists of a trainable convolutional branch, a frozen pre-trained ViT branch and a feature modulation module. The trainable CNN branch could be optimized with labeled data while the frozen pre-trained ViT branch could keep the representation ability derived from large-scale pre-training. Then, the proposed feature modulation module could modulate the multi-scale CNN features with the representations from ViT branch. With the proposed mixed structure, detector is more likely to discover novel categories. Evaluated on two popular benchmarks, our method boosts the detection performance on novel category and outperforms the baseline. On OV-COCO, the proposed method achieves 44.3 AP$_{50}^{\mathrm{novel}}$ with ViT-B/16 and 48.5 AP$_{50}^{\mathrm{novel}}$ with ViT-L/14. On OV-LVIS, VMCNet with ViT-B/16 and ViT-L/14 reaches 27.8 and 38.4 mAP$_{r}$.
- Abstract(参考訳): 大規模な画像テキストコントラストトレーニングにより、CLIPのような事前学習された視覚言語モデル(VLM)は、より優れたオープン語彙認識能力を示す。
既存の多くのオープンボキャブラリオブジェクト検出器は、訓練済みのVLMを使用して生成表現を達成しようとする。
F-ViTはトレーニング済みのビジュアルエンコーダをバックボーンネットワークとして使用し、トレーニング中にそれを凍結する。
しかし、凍結したバックボーンは、表現を強化するためにラベル付きデータから恩恵を受けない。
そこで本稿では,VT-Feature-Modulated Multi-Scale Convolutional Network (VMCNet) と呼ばれる2分岐バックボーンネットワークの設計を提案する。
VMCNetは、トレーニング可能な畳み込みブランチ、凍結された事前訓練されたViTブランチ、フィーチャ変調モジュールで構成されている。
トレーニング可能なCNNブランチはラベル付きデータで最適化でき、凍結された事前トレーニングされたViTブランチは大規模な事前トレーニングから派生した表現能力を維持できる。
提案した特徴変調モジュールは、ViTブランチからの表現で、マルチスケールCNN機能を変調することができる。
提案された混合構造により、検出器はより新しいカテゴリーを発見する可能性が高くなる。
提案手法は,2つのベンチマークから評価し,新しいカテゴリにおける検出性能を向上し,ベースラインよりも優れた性能を示す。
OV-COCOでは、提案手法は、VT-B/16で44.3 AP$_{50}^{\mathrm{novel}}$、VT-L/14で48.5 AP$_{50}^{\mathrm{novel}}$を達成する。
OV-LVISでは、VT-B/16とVT-L/14のVMCNetは27.8と38.4mAP$_{r}$に達する。
関連論文リスト
- ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions [4.554319452683839]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、密集した予測タスクではうまく機能しない。
コンボリューショナル・マルチスケール機能を有するVTバックボーンであるViT-CoMerについて述べる。
階層的特徴をまたいだマルチスケールの融合を行う,シンプルで効率的なCNN-Transformer双方向核融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:59:41Z) - BinaryViT: Pushing Binary Vision Transformers Towards Convolutional
Models [0.0]
バイナリ化は、ViTモデルのサイズと計算コストを大幅に削減するのに役立つ。
ViTは、畳み込みニューラルネットワーク(CNN)バイナライゼーションメソッドを直接適用する場合、パフォーマンスが低下する。
我々は、CNNアーキテクチャにインスパイアされたBinaryViTを提案し、CNNアーキテクチャから純粋なViTアーキテクチャへの操作を含む。
論文 参考訳(メタデータ) (2023-06-29T04:48:02Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection [39.37861288287621]
MIMで事前訓練されたバニラViTは、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
ランダムなコンパクトなコンボリューションステムは、事前訓練された大きなカーネルのパッチフィケーションステムに取って代わる。
提案された検出器はMIMDetと呼ばれ、MIMで事前訓練されたバニラVITが2.3ボックスAPと2.5マスクAPで階層スウィントランスより優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-04-06T17:59:04Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。