論文の概要: Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization
- arxiv url: http://arxiv.org/abs/2403.09433v1
- Date: Thu, 14 Mar 2024 14:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:17:36.872910
- Title: Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization
- Title(参考訳): メタプロンプト表現とインスタンスコントラスト最適化を用いた開語彙オブジェクト検出
- Authors: Zhao Wang, Aoxue Li, Fengwei Zhou, Zhenguo Li, Qi Dou,
- Abstract要約: 本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
- 参考スコア(独自算出の注目度): 63.66349334291372
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Classical object detectors are incapable of detecting novel class objects that are not encountered before. Regarding this issue, Open-Vocabulary Object Detection (OVOD) is proposed, which aims to detect the objects in the candidate class list. However, current OVOD models are suffering from overfitting on the base classes, heavily relying on the large-scale extra data, and complex training process. To overcome these issues, we propose a novel framework with Meta prompt and Instance Contrastive learning (MIC) schemes. Firstly, we simulate a novel-class-emerging scenario to help the prompt learner that learns class and background prompts generalize to novel classes. Secondly, we design an instance-level contrastive strategy to promote intra-class compactness and inter-class separation, which benefits generalization of the detector to novel class objects. Without using knowledge distillation, ensemble model or extra training data during detector training, our proposed MIC outperforms previous SOTA methods trained with these complex techniques on LVIS. Most importantly, MIC shows great generalization ability on novel classes, e.g., with $+4.3\%$ and $+1.9\% \ \mathrm{AP}$ improvement compared with previous SOTA on COCO and Objects365, respectively.
- Abstract(参考訳): 古典的な物体検出器は、これまで遭遇したことのない新しい種類の物体を検出することができない。
この問題に関して、候補クラスリスト内のオブジェクトを検出することを目的として、OVOD(Open-Vocabulary Object Detection)を提案する。
しかし、現在のOVODモデルは、大規模な追加データと複雑なトレーニングプロセスに大きく依存しているため、ベースクラスに過度な適合に苦しんでいる。
これらの課題を克服するために,メタプロンプトとインスタンスコントラスト学習(MIC)方式を用いた新しいフレームワークを提案する。
まず,クラスとバックグラウンドを学習する学習者が新しいクラスに一般化するのを助けるために,新しいクラスを創出するシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
筆者らは, 知識蒸留, アンサンブルモデル, 余分な訓練データを使わずに, LVISでこれらの複雑な技術を用いて訓練した従来のSOTA法より優れていた。
最も重要な点として、MICは、新しいクラス、例えば、$+4.3\%$と$+1.9\% \ \mathrm{AP}$の改善により、COCOとObjects365のSOTAと比較して非常に一般化できることを示している。
関連論文リスト
- UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation [38.331860053615955]
本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対して最適なソリューションを作ることです。
論文 参考訳(メタデータ) (2024-11-13T12:29:44Z) - Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Semantic Enhanced Few-shot Object Detection [37.715912401900745]
本稿では, セマンティックな埋め込みを利用してより優れた検出を行う, 微調整に基づくFSODフレームワークを提案する。
提案手法は,各新規クラスが類似の基底クラスと混同されることなく,コンパクトな特徴空間を構築することを可能にする。
論文 参考訳(メタデータ) (2024-06-19T12:40:55Z) - Fine-Grained Prototypes Distillation for Few-Shot Object Detection [8.795211323408513]
Few-shot Object Detection (FSOD) は、新しい物体検出のためのジェネリック検出器を、少数の訓練例で拡張することを目的としている。
一般に、メタラーニングに基づく手法は、新しいサンプルをクラスプロトタイプにエンコードするために追加のサポートブランチを使用する。
より堅牢な新しいオブジェクト検出のために、特徴ある局所的コンテキストをキャプチャするためには、新しい方法が必要である。
論文 参考訳(メタデータ) (2024-01-15T12:12:48Z) - Few-Shot Object Detection via Association and DIscrimination [83.8472428718097]
AssociationとDIscriminationによるオブジェクト検出は、新しいクラスごとに2つのステップで識別可能な特徴空間を構築している。
Pascal VOCとMS-COCOデータセットの実験では、FADIは新しいSOTAパフォーマンスを実現し、ショット/スプリットのベースラインを+18.7で大幅に改善した。
論文 参考訳(メタデータ) (2021-11-23T05:04:06Z) - Bridging Non Co-occurrence with Unlabeled In-the-wild Data for
Incremental Object Detection [56.22467011292147]
物体検出における破滅的忘れを緩和するために,いくつかの漸進的学習法が提案されている。
有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。
そこで本研究では,新たな授業の訓練において,欠落した基本クラスが原因で生じる非発生を補うために,未ラベルのインザ・ザ・ワイルドデータを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-28T10:57:25Z) - Multi-View Correlation Distillation for Incremental Object Detection [12.536640582318949]
我々は,新しいtextbfMulti-textbfView textbfCorrelation textbfDistillation (MVCD) を用いたインクリメンタルオブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2021-07-05T04:36:33Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Incremental Few-Shot Object Detection [96.02543873402813]
OpeN-ended Centre nEtは、いくつかの例でクラスオブジェクトの検出を漸進的に学習する検出器である。
ONCEはインクリメンタルな学習パラダイムを十分に尊重しており、新しいクラス登録では、数発のトレーニングサンプルを1回だけフォワードパスするだけでよい。
論文 参考訳(メタデータ) (2020-03-10T12:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。