論文の概要: Towards Open Vocabulary Object Detection without Human-provided Bounding
Boxes
- arxiv url: http://arxiv.org/abs/2111.09452v1
- Date: Thu, 18 Nov 2021 00:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 23:27:38.503240
- Title: Towards Open Vocabulary Object Detection without Human-provided Bounding
Boxes
- Title(参考訳): 有人境界ボックスのないオープンボキャブラリ物体検出に向けて
- Authors: Mingfei Gao, Chen Xing, Juan Carlos Niebles, Junnan Li, Ran Xu, Wenhao
Liu, Caiming Xiong
- Abstract要約: 手動でバウンディングボックスアノテーションを指定せずにトレーニングできるオープンな語彙検出フレームワークを提案する。
本手法は,事前学習した視覚言語モデルの局所化能力を活用して実現した。
- 参考スコア(独自算出の注目度): 74.24276505126932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite great progress in object detection, most existing methods are limited
to a small set of object categories, due to the tremendous human effort needed
for instance-level bounding-box annotation. To alleviate the problem, recent
open vocabulary and zero-shot detection methods attempt to detect object
categories not seen during training. However, these approaches still rely on
manually provided bounding-box annotations on a set of base classes. We propose
an open vocabulary detection framework that can be trained without manually
provided bounding-box annotations. Our method achieves this by leveraging the
localization ability of pre-trained vision-language models and generating
pseudo bounding-box labels that can be used directly for training object
detectors. Experimental results on COCO, PASCAL VOC, Objects365 and LVIS
demonstrate the effectiveness of our method. Specifically, our method
outperforms the state-of-the-arts (SOTA) that are trained using human annotated
bounding-boxes by 3% AP on COCO novel categories even though our training
source is not equipped with manual bounding-box labels. When utilizing the
manual bounding-box labels as our baselines do, our method surpasses the SOTA
largely by 8% AP.
- Abstract(参考訳): オブジェクト検出の進歩にもかかわらず、ほとんどの既存のメソッドは、インスタンスレベルのバウンディングボックスアノテーションに必要な膨大な人的労力のために、小さなオブジェクトカテゴリに限られています。
この問題を軽減するために、最近のオープン語彙とゼロショット検出法は、トレーニング中に見えない対象カテゴリを検出する。
しかし、これらのアプローチは、ベースクラスのセットに手動で境界ボックスアノテーションを提供している。
手動でバウンディングボックスアノテーションを指定せずにトレーニングできるオープン語彙検出フレームワークを提案する。
本手法は,事前学習した視覚言語モデルのローカライズ機能を活用し,直接対象検出器の訓練に使用できる擬似境界ボックスラベルを生成する。
COCO,PASCAL VOC,Objects365,LVISの実験結果から,本手法の有効性が示された。
具体的には、トレーニングソースに手動バウンディングボックスラベルが備わっていないにもかかわらず、COCOの新規カテゴリにおいて、人間のアノテーション付きバウンディングボックスを用いてトレーニングされた最先端技術(SOTA)を3%APで上回ります。
本手法は,手動バウンディングボックスラベルをベースラインとして利用する場合,ほぼ8%の精度でSOTAを超える。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - LP-OVOD: Open-Vocabulary Object Detection by Linear Probing [8.202076059391315]
オブジェクト検出器は、トレーニングにおいて見知らぬクラスの例をラベル付けせずに、テストイメージ内の見えないクラスと見えないクラスの両方を識別する必要がある。
OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。
オーバー・アンド・アンダー・カバーされたオブジェクト・ボックスのような多くの低品質なボックスは、CLIPが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質なボックスと同等のスコアを持つ。
そこで我々は,低品質なボックスをトレーニングによって破棄するLP-OVODを提案する。
論文 参考訳(メタデータ) (2023-10-26T02:37:08Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - Boosting Weakly Supervised Object Detection via Learning Bounding Box
Adjusters [76.36104006511684]
高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervised Object Detection)が最近の話題として登場した。
我々は、よく注釈付けされた補助データセットからバウンディングボックス回帰知識を活用することにより、ローカライズ性能を向上させるための問題設定を擁護する。
提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。
論文 参考訳(メタデータ) (2021-08-03T13:38:20Z) - Iterative Bounding Box Annotation for Object Detection [0.456877715768796]
本稿では,効率的なバウンディングボックスアノテーションのための半自動手法を提案する。
この方法は、ラベル付き画像の小さなバッチに対して、オブジェクト検出器を反復的に訓練する。
次のバッチに対するバウンディングボックスの提案を学習し、その後、人間のアノテータがエラーを修正すればよい。
論文 参考訳(メタデータ) (2020-07-02T08:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。