論文の概要: Contrastive Feature Masking Open-Vocabulary Vision Transformer
- arxiv url: http://arxiv.org/abs/2309.00775v1
- Date: Sat, 2 Sep 2023 01:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:15:27.938355
- Title: Contrastive Feature Masking Open-Vocabulary Vision Transformer
- Title(参考訳): 透視変換器のコントラスト的特徴マスキング
- Authors: Dahun Kim, Anelia Angelova, Weicheng Kuo
- Abstract要約: コントラスト特徴マスキングビジョントランス(CFM-ViT)
Open-vocabulary Object Detection (OVD)のための画像と領域レベルの同時学習を実現する画像テキスト事前学習手法
- 参考スコア(独自算出の注目度): 44.03247177599605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Contrastive Feature Masking Vision Transformer (CFM-ViT) - an
image-text pretraining methodology that achieves simultaneous learning of
image- and region-level representation for open-vocabulary object detection
(OVD). Our approach combines the masked autoencoder (MAE) objective into the
contrastive learning objective to improve the representation for localization
tasks. Unlike standard MAE, we perform reconstruction in the joint image-text
embedding space, rather than the pixel space as is customary with the classical
MAE method, which causes the model to better learn region-level semantics.
Moreover, we introduce Positional Embedding Dropout (PED) to address scale
variation between image-text pretraining and detection finetuning by randomly
dropping out the positional embeddings during pretraining. PED improves
detection performance and enables the use of a frozen ViT backbone as a region
classifier, preventing the forgetting of open-vocabulary knowledge during
detection finetuning. On LVIS open-vocabulary detection benchmark, CFM-ViT
achieves a state-of-the-art 33.9 AP$r$, surpassing the best approach by 7.6
points and achieves better zero-shot detection transfer. Finally, CFM-ViT
acquires strong image-level representation, outperforming the state of the art
on 8 out of 12 metrics on zero-shot image-text retrieval benchmarks.
- Abstract(参考訳): オープン語彙オブジェクト検出(OVD)のための画像および領域レベルの表現を同時学習する画像テキスト事前学習手法として、コントラスト特徴マスキング視覚変換器(CFM-ViT)を提案する。
提案手法は,マスク付きオートエンコーダ(MAE)の目的と対照的な学習目標を組み合わせ,ローカライゼーションタスクの表現を改善する。
標準的なmaeとは異なり、従来のmae法のようなピクセル空間ではなく、画像テキスト埋め込み空間で再構成を行うことで、モデルが地域レベルのセマンティクスをよりよく学習する。
さらに,プリトレーニング中の位置埋め込みをランダムに切り落として,画像テキストプリトレーニングと検出微調整のスケール変動に対処するため,位置埋め込みドロップアウト(ped)を導入する。
PEDは検出性能を改善し、凍結したViTバックボーンを領域分類器として使用することにより、検出微調整時のオープン語彙知識の忘れを防止する。
lvisopen-vocabulary detectionベンチマークでは、cfm-vitは最先端の33.9 ap$r$を達成し、最良のアプローチを7.6ポイント上回り、より良いゼロショット検出転送を達成している。
最後に、cfm-vitは強い画像レベルの表現を取得し、ゼロショット画像テキスト検索ベンチマークの12の指標のうち8の技法を上回っている。
関連論文リスト
- Boosting Open-Vocabulary Object Detection by Handling Background Samples [9.07525578809556]
背景サンプルの処理におけるCLIPの限界に対処する新しい手法を提案する。
本稿では,部分的領域を前景として誤分類する問題に対処するために,部分的オブジェクト抑圧(POS)を導入する。
提案手法は,様々な開語彙検出器の性能向上を実現することができる。
論文 参考訳(メタデータ) (2024-10-11T09:15:50Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction [67.43527289422978]
そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。
オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
論文 参考訳(メタデータ) (2023-10-02T17:58:52Z) - Region-centric Image-Language Pretraining for Open-Vocabulary Detection [39.17829005627821]
領域中心の画像言語事前学習に基づく新しいオープン語彙検出手法を提案する。
プレトレーニング段階では,分類バックボーン上に検出器アーキテクチャを組み込む。
我々のアプローチは、創発的なオブジェクト・セマンティックな手がかりを学習するための、対照的な学習方法の単純かつ効果的な拡張である。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Region-Aware Pretraining for Open-Vocabulary Object Detection with
Vision Transformers [44.03247177599605]
地域対応オープンボキャブラリビジョントランス(RO-ViT)
画像レベルの事前学習とオープン語彙オブジェクト検出のギャップを埋めるために、コントラスト的な画像テキスト事前学習のレシピを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:53:29Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。