論文の概要: Zero-Shot Detection via Vision and Language Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2104.13921v1
- Date: Wed, 28 Apr 2021 17:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 13:00:32.845093
- Title: Zero-Shot Detection via Vision and Language Knowledge Distillation
- Title(参考訳): 視覚と言語知識蒸留によるゼロショット検出
- Authors: Xiuye Gu, Tsung-Yi Lin, Weicheng Kuo, Yin Cui
- Abstract要約: 視覚・言語知識蒸留によるトレーニング手法「ViLD」を提案します。
予め訓練したゼロショット画像分類モデルから知識を2段階検出器に抽出する。
本手法では,検出器内の領域埋め込みをテキストに調整し,事前学習したモデルにより推定した画像埋め込みを行う。
- 参考スコア(独自算出の注目度): 28.54818724798105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot image classification has made promising progress by training the
aligned image and text encoders. The goal of this work is to advance zero-shot
object detection, which aims to detect novel objects without bounding box nor
mask annotations. We propose ViLD, a training method via Vision and Language
knowledge Distillation. We distill the knowledge from a pre-trained zero-shot
image classification model (e.g., CLIP) into a two-stage detector (e.g., Mask
R-CNN). Our method aligns the region embeddings in the detector to the text and
image embeddings inferred by the pre-trained model. We use the text embeddings
as the detection classifier, obtained by feeding category names into the
pre-trained text encoder. We then minimize the distance between the region
embeddings and image embeddings, obtained by feeding region proposals into the
pre-trained image encoder. During inference, we include text embeddings of
novel categories into the detection classifier for zero-shot detection. We
benchmark the performance on LVIS dataset by holding out all rare categories as
novel categories. ViLD obtains 16.1 mask AP$_r$ with a Mask R-CNN (ResNet-50
FPN) for zero-shot detection, outperforming the supervised counterpart by 3.8.
The model can directly transfer to other datasets, achieving 72.2 AP$_{50}$,
36.6 AP and 11.8 AP on PASCAL VOC, COCO and Objects365, respectively.
- Abstract(参考訳): ゼロショット画像分類は、アライメントされた画像とテキストエンコーダをトレーニングすることで、有望な進歩を遂げた。
この研究の目的はゼロショットオブジェクト検出の進歩であり、ボックスやマスクアノテーションを使わずに新しいオブジェクトを検出することを目的としている。
視覚・言語知識蒸留による学習手法であるViLDを提案する。
事前訓練されたゼロショット画像分類モデル(例えばクリップ)から2段階検出器(例えばマスクr-cnn)に知識を蒸留する。
本手法は,検出器内の領域埋め込みと,事前学習モデルによる画像埋め込みとを一致させる。
テキスト埋め込みを検出分類器として使用し,事前学習したテキストエンコーダにカテゴリ名を付与する。
次に、予め訓練された画像エンコーダに領域提案を供給して得られる領域埋め込みと画像埋め込みとの距離を最小化する。
推論中、ゼロショット検出のための検出分類器に新しいカテゴリのテキスト埋め込みを含める。
我々は,レアなカテゴリをすべて新しいカテゴリとして保持することで,LVISデータセットのパフォーマンスをベンチマークする。
ViLDは16.1マスクのAP$_r$をマスクR-CNN(ResNet-50 FPN)で取得し、ゼロショット検出を行う。
このモデルは、それぞれPASCAL VOC、COCO、Objects365で72.2 AP$_{50}$、36.6 AP、11.8 APを達成して、他のデータセットに直接転送することができる。
関連論文リスト
- Joint Neural Networks for One-shot Object Recognition and Detection [5.389851588398047]
本稿では,一発物体の認識と検出に難渋する課題に対処する,新しい結合ニューラルネットワーク手法を提案する。
Siameseのニューラルネットワークと最先端のマルチボックス検出アプローチにインスパイアされたジョイントニューラルネットワークは、トレーニングプロセス中に見つからないカテゴリのオブジェクト認識と検出を行うことができる。
提案手法は,MiniImageNetデータセット上での1ショットオブジェクト認識における61.41%の精度と,データセット上でトレーニングしてテストした場合の1ショットオブジェクト検出における47.1%のmAPを実現する。
論文 参考訳(メタデータ) (2024-08-01T16:48:03Z) - Language-conditioned Detection Transformer [4.8951183832371]
本フレームワークでは,画像レベルのラベルと詳細な検出アノテーションが利用可能である。
まず、完全に教師付き検出データに基づいて、言語条件のオブジェクト検出器を訓練する。
この検出器は、画像レベルのラベルを持つ擬似ラベル画像に使用される。
最後に、擬似注釈画像上に無条件の開語彙検出器を訓練する。
論文 参考訳(メタデータ) (2023-11-29T18:53:47Z) - Image-free Classifier Injection for Zero-Shot Classification [72.66409483088995]
ゼロショット学習モデルは、訓練中に見られなかったクラスからのサンプルのイメージ分類において顕著な結果が得られる。
我々は,画像データを用いることなく,ゼロショット分類機能を備えた事前学習モデルの装備を目指す。
提案したイメージフリーインジェクション・ウィズ・セマンティックス (ICIS) でこれを実現する。
論文 参考訳(メタデータ) (2023-08-21T09:56:48Z) - Read, look and detect: Bounding box annotation from image-caption pairs [2.0305676256390934]
本稿では,画像中のオブジェクトの特定とラベル付けを行う手法について,より弱い監督方法であるイメージ・キャプション・ペアを用いて提案する。
Flickr30k COCOを用いたフレーズグラウンドで47.51%のリコール@1スコアを達成し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-06-09T12:23:20Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - CapDet: Unifying Dense Captioning and Open-World Detection Pretraining [68.8382821890089]
本稿では,所定のカテゴリリストに基づいて予測するか,あるいは予測された境界ボックスのカテゴリを直接生成する,CapDetという新しいオープンワールド検出器を提案する。
具体的には,オープンワールド検出と高密度キャプションタスクを,付加的な高密度キャプションヘッドを導入することで,単一の効果的なフレームワークに統合する。
論文 参考訳(メタデータ) (2023-03-04T19:53:00Z) - Cut and Learn for Unsupervised Object Detection and Instance
Segmentation [65.43627672225624]
Cut-and-LeaRn(CutLER)は、教師なしオブジェクトの検出とセグメンテーションモデルをトレーニングするためのシンプルなアプローチである。
CutLERはゼロショット非監視検出器であり、11のベンチマークでAP50を2.7倍以上改善している。
論文 参考訳(メタデータ) (2023-01-26T18:57:13Z) - ZSD-YOLO: Zero-Shot YOLO Detection using Vision-Language
KnowledgeDistillation [5.424015823818208]
COCOのようなデータセットは、多くの画像に広く注釈付けされているが、多数のカテゴリがあり、さまざまなドメインにまたがるすべてのオブジェクトクラスに注釈を付けるのは高価で難しい。
我々は,CLIPのようなゼロショット事前学習モデルからの画像とテキストの埋め込みを,YOLOv5のような一段検出器からの修正意味予測ヘッドに整合させるビジョン・ランゲージ蒸留法を開発した。
推論中、我々のモデルは追加のトレーニングなしで任意の数のオブジェクトクラスを検出するように適応できる。
論文 参考訳(メタデータ) (2021-09-24T16:46:36Z) - Data-Efficient Language-Supervised Zero-Shot Learning with
Self-Distillation [23.631184498984933]
自然言語は、監督された「ゴールド」ラベルよりも広く、より豊かな監督源であることが示されている。
ソフトラベルを用いてノイズの多い画像とテキストのペアから学習する,データ効率の高いコントラスト蒸留法を提案する。
我々のモデルは事前訓練された画像と文エンコーダから知識を伝達し,CLIPよりも133倍小さい3M画像テキストペアで高い性能を達成する。
論文 参考訳(メタデータ) (2021-04-18T19:55:31Z) - DetCo: Unsupervised Contrastive Learning for Object Detection [64.22416613061888]
教師なしのコントラスト学習は,CNNを用いた画像表現学習において大きな成功を収めている。
我々は,グローバルイメージとローカルイメージパッチのコントラストをフルに検討する,DetCoという新しいコントラスト学習手法を提案する。
DetCoは1倍のスケジュールでMask RCNN-C4/FPN/RetinaNet上で1.6/1.2/1.0 APで教師付き手法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-02-09T12:47:20Z) - Exploring Bottom-up and Top-down Cues with Attentive Learning for Webly
Supervised Object Detection [76.9756607002489]
本稿では,新しいクラスを対象としたWebSOD法を提案する。
提案手法はボトムアップとトップダウンを組み合わせた新しいクラス検出手法である。
提案手法は,3種類の新規/ベース分割を持つPASCAL VOCデータセット上で実証した。
論文 参考訳(メタデータ) (2020-03-22T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。