論文の概要: LP-OVOD: Open-Vocabulary Object Detection by Linear Probing
- arxiv url: http://arxiv.org/abs/2310.17109v1
- Date: Thu, 26 Oct 2023 02:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:33:27.849554
- Title: LP-OVOD: Open-Vocabulary Object Detection by Linear Probing
- Title(参考訳): LP-OVOD:線形探索による開語彙オブジェクト検出
- Authors: Chau Pham, Truong Vu, Khoi Nguyen
- Abstract要約: オブジェクト検出器は、トレーニングにおいて見知らぬクラスの例をラベル付けせずに、テストイメージ内の見えないクラスと見えないクラスの両方を識別する必要がある。
OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。
オーバー・アンド・アンダー・カバーされたオブジェクト・ボックスのような多くの低品質なボックスは、CLIPが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質なボックスと同等のスコアを持つ。
そこで我々は,低品質なボックスをトレーニングによって破棄するLP-OVODを提案する。
- 参考スコア(独自算出の注目度): 9.2183115207665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenging problem of open-vocabulary object
detection (OVOD) where an object detector must identify both seen and unseen
classes in test images without labeled examples of the unseen classes in
training. A typical approach for OVOD is to use joint text-image embeddings of
CLIP to assign box proposals to their closest text label. However, this method
has a critical issue: many low-quality boxes, such as over- and
under-covered-object boxes, have the same similarity score as high-quality
boxes since CLIP is not trained on exact object location information. To
address this issue, we propose a novel method, LP-OVOD, that discards
low-quality boxes by training a sigmoid linear classifier on pseudo labels
retrieved from the top relevant region proposals to the novel text.
Experimental results on COCO affirm the superior performance of our approach
over the state of the art, achieving $\textbf{40.5}$ in $\text{AP}_{novel}$
using ResNet50 as the backbone and without external datasets or knowing novel
classes during training. Our code will be available at
https://github.com/VinAIResearch/LP-OVOD.
- Abstract(参考訳): 本稿では,オープン語彙オブジェクト検出(OVOD)の課題に対処し,未確認クラスをラベル付けせずに,対象検出器がテスト画像中の見えないクラスと見えないクラスの両方を識別する必要がある。
OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。
オーバーオブジェクトボックスやアンダーカバーオブジェクトボックスなど、多くの低品質ボックスは、クリップが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質ボックスと同じ類似度スコアを持っている。
この問題に対処するため,本論文では,上位領域の提案から得られた擬似ラベルに対して,シグモイド線形分類器をトレーニングすることにより,低品質ボックスを廃棄するLP-OVODを提案する。
cocoの実験結果は、最先端技術に対する我々のアプローチの優れた性能を肯定し、resnet50をバックボーンとして使用し、トレーニング中に外部データセットや新しいクラスを知らずに、$\textbf{40.5}$ in $\text{ap}_{novel}$ を達成する。
私たちのコードはhttps://github.com/VinAIResearch/LP-OVOD.comで公開されます。
関連論文リスト
- Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Identification of Novel Classes for Improving Few-Shot Object Detection [12.013345715187285]
Few-shot Object Detection (FSOD) メソッドは、クラス毎に少数のトレーニングサンプルのみを使用して、堅牢なオブジェクト検出を実現することで、改善を提供する。
我々は、FSOD性能を向上させるためのトレーニング中に、未ラベルの新規物体を正のサンプルとして検出し、利用するための半教師付きアルゴリズムを開発した。
実験の結果,本手法は既存のSOTA FSOD法よりも有効であり,優れた結果が得られた。
論文 参考訳(メタデータ) (2023-03-18T14:12:52Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Towards Open Vocabulary Object Detection without Human-provided Bounding
Boxes [74.24276505126932]
手動でバウンディングボックスアノテーションを指定せずにトレーニングできるオープンな語彙検出フレームワークを提案する。
本手法は,事前学習した視覚言語モデルの局所化能力を活用して実現した。
論文 参考訳(メタデータ) (2021-11-18T00:05:52Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。