論文の概要: LP-OVOD: Open-Vocabulary Object Detection by Linear Probing
- arxiv url: http://arxiv.org/abs/2310.17109v2
- Date: Sun, 2 Jun 2024 12:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:31:18.131561
- Title: LP-OVOD: Open-Vocabulary Object Detection by Linear Probing
- Title(参考訳): LP-OVOD:線形探索による開語彙オブジェクト検出
- Authors: Chau Pham, Truong Vu, Khoi Nguyen,
- Abstract要約: オブジェクト検出器は、トレーニングにおいて見知らぬクラスの例をラベル付けせずに、テストイメージ内の見えないクラスと見えないクラスの両方を識別する必要がある。
OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。
オーバー・アンド・アンダー・カバーされたオブジェクト・ボックスのような多くの低品質なボックスは、CLIPが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質なボックスと同等のスコアを持つ。
そこで我々は,低品質なボックスをトレーニングによって破棄するLP-OVODを提案する。
- 参考スコア(独自算出の注目度): 8.202076059391315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenging problem of open-vocabulary object detection (OVOD) where an object detector must identify both seen and unseen classes in test images without labeled examples of the unseen classes in training. A typical approach for OVOD is to use joint text-image embeddings of CLIP to assign box proposals to their closest text label. However, this method has a critical issue: many low-quality boxes, such as over- and under-covered-object boxes, have the same similarity score as high-quality boxes since CLIP is not trained on exact object location information. To address this issue, we propose a novel method, LP-OVOD, that discards low-quality boxes by training a sigmoid linear classifier on pseudo labels retrieved from the top relevant region proposals to the novel text. Experimental results on COCO affirm the superior performance of our approach over the state of the art, achieving $\textbf{40.5}$ in $\text{AP}_{novel}$ using ResNet50 as the backbone and without external datasets or knowing novel classes during training. Our code will be available at https://github.com/VinAIResearch/LP-OVOD.
- Abstract(参考訳): 本稿では,オープン語彙オブジェクト検出(OVOD)の課題に対処し,未確認クラスをラベル付けせずに,対象検出器がテスト画像中の見えないクラスと見えないクラスの両方を識別する必要がある。
OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。
しかし、この手法には重要な問題がある: オーバーオブジェクトやアンダーオブジェクトのような多くの低品質なボックスは、CLIPが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質なボックスと同等のスコアを持つ。
この問題に対処するため,本論文では,上位領域の提案から得られた擬似ラベルに対して,シグモイド線形分類器をトレーニングすることにより,低品質ボックスを廃棄するLP-OVODを提案する。
COCOの実験結果から,ResNet50をバックボーンとして使用し,外部データセットを使用せず,トレーニング中に新しいクラスを知っていながら,最先端技術に対する我々のアプローチの優れたパフォーマンスを確認した。
私たちのコードはhttps://github.com/VinAIResearch/LP-OVOD.comで公開されます。
関連論文リスト
- OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision [16.19259830005197]
Open-Vocabulary Detection (OVD) は、検出器が訓練される基本カテゴリを越えて、新しいカテゴリからオブジェクトを検出することを目的としている。
我々は、textbfOpen-textbfVocabulary DETRによるtextbfQueryトレーニングとオープンワールドtextbfUnknown textbfObjects監督を行うOV-DQUOを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:33:27Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Towards Open Vocabulary Object Detection without Human-provided Bounding
Boxes [74.24276505126932]
手動でバウンディングボックスアノテーションを指定せずにトレーニングできるオープンな語彙検出フレームワークを提案する。
本手法は,事前学習した視覚言語モデルの局所化能力を活用して実現した。
論文 参考訳(メタデータ) (2021-11-18T00:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。