論文の概要: Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2412.17800v1
- Date: Mon, 23 Dec 2024 18:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:43.975806
- Title: Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection
- Title(参考訳): 総合的多モードプロトタイプはVast-Vocabularyオブジェクト検出のための単純かつ効果的な分類器である
- Authors: Yitong Chen, Wenhao Yao, Lingchen Meng, Sihong Wu, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 現在のオープンワールド検出器は、限られたカテゴリーで訓練されているにもかかわらず、より広い範囲の語彙を認識することができる。
本稿では,多語彙オブジェクト検出のためのプロトタイプ分類器Provaを紹介する。
- 参考スコア(独自算出の注目度): 68.26282316080558
- License:
- Abstract: Enabling models to recognize vast open-world categories has been a longstanding pursuit in object detection. By leveraging the generalization capabilities of vision-language models, current open-world detectors can recognize a broader range of vocabularies, despite being trained on limited categories. However, when the scale of the category vocabularies during training expands to a real-world level, previous classifiers aligned with coarse class names significantly reduce the recognition performance of these detectors. In this paper, we introduce Prova, a multi-modal prototype classifier for vast-vocabulary object detection. Prova extracts comprehensive multi-modal prototypes as initialization of alignment classifiers to tackle the vast-vocabulary object recognition failure problem. On V3Det, this simple method greatly enhances the performance among one-stage, two-stage, and DETR-based detectors with only additional projection layers in both supervised and open-vocabulary settings. In particular, Prova improves Faster R-CNN, FCOS, and DINO by 3.3, 6.2, and 2.9 AP respectively in the supervised setting of V3Det. For the open-vocabulary setting, Prova achieves a new state-of-the-art performance with 32.8 base AP and 11.0 novel AP, which is of 2.6 and 4.3 gain over the previous methods.
- Abstract(参考訳): 広大なオープンワールドのカテゴリを認識するためのモデルの実装は、オブジェクト検出において長年にわたって追求されてきた。
視覚言語モデルの一般化能力を活用することで、現在のオープンワールド検出器は限られたカテゴリーで訓練されているにもかかわらず、より広い範囲の語彙を認識することができる。
しかし、訓練中のカテゴリ語彙の規模が実世界レベルに拡大すると、従来の分類器は粗いクラス名に一致し、これらの検出器の認識性能が著しく低下する。
本稿では,大語彙オブジェクト検出のための多モードプロトタイプ分類器Provaを紹介する。
Provaは、多語彙オブジェクト認識障害問題に対処するためにアライメント分類器の初期化として、包括的なマルチモーダルプロトタイプを抽出する。
V3Detでは、この単純な手法により、1段、2段、DETRベースの検出器の性能が大幅に向上する。
特にProvaは、V3Detの教師付き設定において、それぞれ3.3、6.2、および2.9APで、より高速なR-CNN、FCOS、DINOを改善している。
オープン語彙設定では、Provaは32.8のベースAPと11.0の新規APで新しい最先端のパフォーマンスを実現している。
関連論文リスト
- LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction [63.668635390907575]
既存の手法は、視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクト検出を強化している。
本稿では,視覚的概念間の関係を生かしたLanguage Model Instruction(LaMI)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T02:58:33Z) - SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection [31.464227593768324]
本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-05-16T12:42:06Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - What Makes Good Open-Vocabulary Detector: A Disassembling Perspective [6.623703413255309]
Open-vocabulary Detection (OVD)は、新しいオブジェクト検出パラダイムである。
先行研究は主にオープン語彙分類部に焦点をあて、ローカライゼーション部分にはあまり注意を払わなかった。
本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
論文 参考訳(メタデータ) (2023-09-01T03:03:50Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Weakly Supervised 3D Point Cloud Segmentation via Multi-Prototype
Learning [37.76664203157892]
ここでの根本的な課題は、局所幾何学構造の大きなクラス内変異であり、結果として意味クラス内のサブクラスとなる。
この直感を活用し、各サブクラスの個別分類器を維持することを選択します。
我々の仮説はまた、追加アノテーションのコストを伴わずにセマンティックサブクラスの一貫した発見を前提に検証されている。
論文 参考訳(メタデータ) (2022-05-06T11:07:36Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。