論文の概要: DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object
Detection
- arxiv url: http://arxiv.org/abs/2310.01393v2
- Date: Sat, 23 Dec 2023 12:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:57:46.734131
- Title: DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object
Detection
- Title(参考訳): DST-Det: オープンボキャブラリ物体検出のための簡易動的自己訓練
- Authors: Shilin Xu, Xiangtai Li, Size Wu, Wenwei Zhang, Yining Li, Guangliang
Cheng, Yunhai Tong, Kai Chen, Chen Change Loy
- Abstract要約: Open-vocabulary Object Detection (OVOD) は、トレーニング中に観察されるクラス以外のオブジェクトを検出することを目的としている。
本研究は、事前学習された視覚言語モデル(VLM)のゼロショット分類能力を活用して、新しいクラスの提案を直接発見する単純な効果的な戦略を示す。
- 参考スコア(独自算出の注目度): 83.57616404714172
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-vocabulary object detection (OVOD) aims to detect the objects beyond the
set of classes observed during training. This work presents a simple yet
effective strategy that leverages the zero-shot classification ability of
pre-trained vision-language models (VLM), such as CLIP, to directly discover
proposals of possible novel classes. Unlike previous works that ignore novel
classes during training and rely solely on the region proposal network (RPN)
for novel object detection, our method selectively filters proposals based on
specific design criteria. The resulting sets of identified proposals serve as
pseudo-labels of potential novel classes during the training phase. This
self-training strategy improves the recall and accuracy of novel classes
without requiring additional annotations or datasets. We further propose a
simple offline pseudo-label generation strategy to refine the object detector.
Empirical evaluations on three datasets, including LVIS, V3Det, and COCO,
demonstrate significant improvements over the baseline performance without
incurring additional parameters or computational costs during inference. In
particular, compared with previous F-VLM, our method achieves a 1.7\%
improvement on the LVIS dataset. We also achieve over 6.5\% improvement on the
recent challenging V3Det dataset. When combined with the recent method
CLIPSelf, our method also achieves 46.7 novel class AP on COCO without
introducing extra data for pertaining.
- Abstract(参考訳): Open-vocabulary Object Detection (OVOD) は、トレーニング中に観察されるクラス以外のオブジェクトを検出することを目的としている。
この研究は、CLIPのような事前訓練された視覚言語モデル(VLM)のゼロショット分類能力を活用して、新しいクラスの提案を直接発見する単純な効果的な戦略を示す。
学習中に新しいクラスを無視し、新しいオブジェクト検出のための地域提案ネットワーク(RPN)にのみ依存する従来の研究とは異なり、本手法は特定の設計基準に基づいて提案を選択的にフィルタリングする。
特定された提案のセットは、トレーニングフェーズ中に潜在的な新規クラスの擬似ラベルとして機能する。
この自己学習戦略は、追加のアノテーションやデータセットを必要とせずに、新規クラスのリコールと精度を向上させる。
さらに,物体検出装置を洗練するための簡易オフライン擬似ラベル生成戦略を提案する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、推論中に追加のパラメータや計算コストを発生させることなく、ベースラインのパフォーマンスを大幅に改善したことを示している。
特に,従来のF-VLMと比較して,LVISデータセットの1.7\%の改善を実現している。
また、最近の挑戦的なV3Detデータセットで6.5\%の改善も達成しています。
近年のCLIPSelfと組み合わせることで,COCO上で46.7の新たなクラスAPを達成できる。
関連論文リスト
- Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [54.39740692635763]
FSOD(Few-shot Object Detection)ベンチマークは、アノテーションを限定した新しいカテゴリを検出するための高度な技術を持っている。
我々は,任意の外部データセット上で事前訓練された検出器と,ターゲットクラス毎のKショットに微調整された検出器を評価するための,新しいベンチマークプロトコルであるFoundational FSODを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Improved Region Proposal Network for Enhanced Few-Shot Object Detection [23.871860648919593]
Few-shot Object Detection (FSOD) メソッドは、古典的なオブジェクト検出手法の限界に対する解決策として登場した。
FSODトレーニング段階において,未ラベルの新規物体を正のサンプルとして検出し,利用するための半教師付きアルゴリズムを開発した。
地域提案ネットワーク(RPN)の階層的サンプリング戦略の改善により,大規模オブジェクトに対するオブジェクト検出モデルの認識が向上する。
論文 参考訳(メタデータ) (2023-08-15T02:35:59Z) - Incremental Few-Shot Object Detection via Simple Fine-Tuning Approach [6.808112517338073]
iFSDは、いくつかの例を使って、ベースクラスを再考することなく、新しいクラスを漸進的に学習する。
そこで本研究では,iFSDのための単純な微調整手法であるIncrmental Two-stage Fine-tuning Approach (iTFA)を提案する。
iTFAはCOCOの競争性能を達成し、LVISデータセットのメタラーニング手法よりも30%高いAP精度を示す。
論文 参考訳(メタデータ) (2023-02-20T05:48:46Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Making Look-Ahead Active Learning Strategies Feasible with Neural
Tangent Kernels [6.372625755672473]
本稿では,仮説的ラベル付き候補データを用いた再学習に基づく,能動的学習獲得戦略の近似手法を提案する。
通常、これはディープ・ネットワークでは実現できないが、我々はニューラル・タンジェント・カーネルを用いて再トレーニングの結果を近似する。
論文 参考訳(メタデータ) (2022-06-25T06:13:27Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - Bridging Non Co-occurrence with Unlabeled In-the-wild Data for
Incremental Object Detection [56.22467011292147]
物体検出における破滅的忘れを緩和するために,いくつかの漸進的学習法が提案されている。
有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。
そこで本研究では,新たな授業の訓練において,欠落した基本クラスが原因で生じる非発生を補うために,未ラベルのインザ・ザ・ワイルドデータを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-28T10:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。