論文の概要: Region-Aware Pretraining for Open-Vocabulary Object Detection with
Vision Transformers
- arxiv url: http://arxiv.org/abs/2305.07011v3
- Date: Thu, 24 Aug 2023 23:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:22:36.729873
- Title: Region-Aware Pretraining for Open-Vocabulary Object Detection with
Vision Transformers
- Title(参考訳): 視覚トランスフォーマーを用いた開語彙物体検出のための領域認識事前学習
- Authors: Dahun Kim, Anelia Angelova, Weicheng Kuo
- Abstract要約: 地域対応オープンボキャブラリビジョントランス(RO-ViT)
画像レベルの事前学習とオープン語彙オブジェクト検出のギャップを埋めるために、コントラスト的な画像テキスト事前学習のレシピを提案する。
- 参考スコア(独自算出の注目度): 44.03247177599605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a
contrastive image-text pretraining recipe to bridge the gap between image-level
pretraining and open-vocabulary object detection. At the pretraining phase, we
propose to randomly crop and resize regions of positional embeddings instead of
using the whole image positional embeddings. This better matches the use of
positional embeddings at region-level in the detection finetuning phase. In
addition, we replace the common softmax cross entropy loss in contrastive
learning with focal loss to better learn the informative yet difficult
examples. Finally, we leverage recent advances in novel object proposals to
improve open-vocabulary detection finetuning. We evaluate our full model on the
LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer.
RO-ViT achieves a state-of-the-art 34.1 $AP_r$ on LVIS, surpassing the best
existing approach by +7.8 points in addition to competitive zero-shot transfer
detection. Surprisingly, RO-ViT improves the image-level representation as well
and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr
image-text retrieval benchmarks, outperforming competitive approaches with
larger models.
- Abstract(参考訳): 本稿では,画像レベルのプリトレーニングとオープンボキャブラリオブジェクト検出のギャップを埋めるために,画像テキストプリトレーニングレシピであるro-vit(region-aware open-vocabulary vision transformers)を提案する。
プレトレーニング段階では,画像全体の位置埋め込みを使わずに,位置埋め込みの領域をランダムに収穫・再サイズすることを提案する。
これは検出微調整フェーズにおける領域レベルでの位置埋め込みの使用に合致する。
さらに,比較学習におけるソフトマックスクロスエントロピー損失を焦点損失に置き換え,情報的かつ難解な例をよりよく学習する。
最後に、新しいオブジェクト提案の最近の進歩を活用して、オープン語彙検出の微調整を改善する。
LVIS と COCO の開語彙検出ベンチマークとゼロショット転送における全モデルの評価を行った。
RO-ViT は LVIS 上の最先端の 34.1 $AP_r$ を達成し、競合するゼロショット転送検出に加えて、+7.8 ポイントの最良のアプローチを超える。
驚いたことに、RO-ViTは画像レベルの表現も改善し、COCOとFlickrの画像テキスト検索ベンチマーク上の12のメトリクスのうち9のテクニックの状態を達成している。
関連論文リスト
- Region-centric Image-Language Pretraining for Open-Vocabulary Detection [39.17829005627821]
領域中心の画像言語事前学習に基づく新しいオープン語彙検出手法を提案する。
プレトレーニング段階では,分類バックボーン上に検出器アーキテクチャを組み込む。
我々のアプローチは、創発的なオブジェクト・セマンティックな手がかりを学習するための、対照的な学習方法の単純かつ効果的な拡張である。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - Contrastive Feature Masking Open-Vocabulary Vision Transformer [44.03247177599605]
コントラスト特徴マスキングビジョントランス(CFM-ViT)
Open-vocabulary Object Detection (OVD)のための画像と領域レベルの同時学習を実現する画像テキスト事前学習手法
論文 参考訳(メタデータ) (2023-09-02T01:12:48Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。