論文の概要: Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation
- arxiv url: http://arxiv.org/abs/2404.08603v1
- Date: Fri, 12 Apr 2024 17:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 14:27:45.307089
- Title: Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation
- Title(参考訳): 信頼集約を用いたオープンボキャブラリ物体検出のための訓練不要ブースト
- Authors: Yanhao Zheng, Kai Liu,
- Abstract要約: Open-vocabulary Object Detection (OVOD) は、訓練時に見えない新しいクラスから視覚オブジェクトをローカライズし、認識することを目的としている。
本稿では,この問題を2段階のOVODパラダイムを用いて体系的に検討する。
この問題を軽減するために, 信頼度を調整し, 誤って削除対象を保存するための2つの高度な対策を提案する。
- 参考スコア(独自算出の注目度): 3.0899016152680754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection (OVOD) aims at localizing and recognizing visual objects from novel classes unseen at the training time. Whereas, empirical studies reveal that advanced detectors generally assign lower scores to those novel instances, which are inadvertently suppressed during inference by commonly adopted greedy strategies like Non-Maximum Suppression (NMS), leading to sub-optimal detection performance for novel classes. This paper systematically investigates this problem with the commonly-adopted two-stage OVOD paradigm. Specifically, in the region-proposal stage, proposals that contain novel instances showcase lower objectness scores, since they are treated as background proposals during the training phase. Meanwhile, in the object-classification stage, novel objects share lower region-text similarities (i.e., classification scores) due to the biased visual-language alignment by seen training samples. To alleviate this problem, this paper introduces two advanced measures to adjust confidence scores and conserve erroneously dismissed objects: (1) a class-agnostic localization quality estimate via overlap degree of region/object proposals, and (2) a text-guided visual similarity estimate with proxy prototypes for novel classes. Integrated with adjusting techniques specifically designed for the region-proposal and object-classification stages, this paper derives the aggregated confidence estimate for the open-vocabulary object detection paradigm (AggDet). Our AggDet is a generic and training-free post-processing scheme, which consistently bolsters open-vocabulary detectors across model scales and architecture designs. For instance, AggDet receives 3.3% and 1.5% gains on OV-COCO and OV-LVIS benchmarks respectively, without any training cost.
- Abstract(参考訳): Open-vocabulary Object Detection (OVOD) は、訓練時に見えない新しいクラスから視覚オブジェクトをローカライズし、認識することを目的としている。
一方、先進的な検出器は一般的に、推論中に不注意に抑制され、非最大抑圧 (NMS) のような一般的に採用されている欲求戦略によって、新しいクラスの準最適検出性能をもたらす新規なインスタンスに低いスコアを割り当てる。
本稿では,この問題を2段階のOVODパラダイムを用いて体系的に検討する。
具体的には、地域プロモーサル段階では、トレーニング期間中に背景提案として扱われるため、新規な事例を含む提案は低い客観性スコアを示す。
一方、オブジェクト分類段階では、新しいオブジェクトは、観察されたトレーニングサンプルによる視覚的アライメントのバイアスにより、より低い領域テキスト類似度(分類スコア)を共有する。
この問題を軽減するために,(1)領域/対象提案の重複度によるクラス非依存の局所化品質推定,(2)新規クラス用プロキシプロトタイプを用いたテキスト誘導視覚的類似度推定という,信頼スコアの調整と誤検出対象の保存という2つの先進的な手段を導入する。
本稿では,AggDet(オープンボキャブラリオブジェクト検出パラダイム)の集合的信頼度推定を導出する。
私たちのAggDetは汎用的でトレーニング不要な後処理スキームで、モデルスケールとアーキテクチャ設計をまたいだオープン語彙検出を一貫して強化しています。
例えば、AggDetはトレーニングコストなしでOV-COCOとOV-LVISのベンチマークで3.3%と1.5%のゲインを得ている。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Identification of Novel Classes for Improving Few-Shot Object Detection [12.013345715187285]
Few-shot Object Detection (FSOD) メソッドは、クラス毎に少数のトレーニングサンプルのみを使用して、堅牢なオブジェクト検出を実現することで、改善を提供する。
我々は、FSOD性能を向上させるためのトレーニング中に、未ラベルの新規物体を正のサンプルとして検出し、利用するための半教師付きアルゴリズムを開発した。
実験の結果,本手法は既存のSOTA FSOD法よりも有効であり,優れた結果が得られた。
論文 参考訳(メタデータ) (2023-03-18T14:12:52Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization [73.14053674836838]
Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
本稿では,提案するマイニングと予測等化を備えた新しいOVDフレームワークMEDetを提案する。
論文 参考訳(メタデータ) (2022-06-22T14:30:41Z) - Object Class Aware Video Anomaly Detection through Image Translation [1.2944868613449219]
本稿では、画像翻訳タスクを通して正常な外見と動きパターンを学習する2ストリームオブジェクト認識型VAD手法を提案する。
その結果,従来の手法の大幅な改善により,本手法による検出は完全に説明可能となり,異常はフレーム内で正確に局所化されることがわかった。
論文 参考訳(メタデータ) (2022-05-03T18:04:27Z) - Few-Shot Object Detection with Proposal Balance Refinement [21.89786914625517]
近年,物体検出に注目が集まっている。
本稿では,新規サンプルの偏り分布に起因した交叉対一乗変動の欠如を解析する。
提案手法は,オブジェクトの提案を学習する上で,シンプルかつ効果的なアプローチである提案バランス改善を伴う,数発のオブジェクト検出モデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T06:44:15Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。