論文の概要: A Hierarchical Semantic Distillation Framework for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2503.10152v1
- Date: Thu, 13 Mar 2025 08:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:56.669128
- Title: A Hierarchical Semantic Distillation Framework for Open-Vocabulary Object Detection
- Title(参考訳): 開語彙オブジェクト検出のための階層的セマンティック蒸留フレームワーク
- Authors: Shenghao Fu, Junkai Yan, Qize Yang, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng,
- Abstract要約: 本稿では,HD-OVDという階層型セマンティック蒸留フレームワークを提案する。
私たちのHD-OVDは、CLIPのインスタンス、クラス、イメージレベルから一般化可能な認識能力を継承します。
私たちは、OV-COCOデータセット上の新しいAPを、ResNet50のバックボーンで46.4%に引き上げました。
- 参考スコア(独自算出の注目度): 47.18069715855738
- License:
- Abstract: Open-vocabulary object detection (OVD) aims to detect objects beyond the training annotations, where detectors are usually aligned to a pre-trained vision-language model, eg, CLIP, to inherit its generalizable recognition ability so that detectors can recognize new or novel objects. However, previous works directly align the feature space with CLIP and fail to learn the semantic knowledge effectively. In this work, we propose a hierarchical semantic distillation framework named HD-OVD to construct a comprehensive distillation process, which exploits generalizable knowledge from the CLIP model in three aspects. In the first hierarchy of HD-OVD, the detector learns fine-grained instance-wise semantics from the CLIP image encoder by modeling relations among single objects in the visual space. Besides, we introduce text space novel-class-aware classification to help the detector assimilate the highly generalizable class-wise semantics from the CLIP text encoder, representing the second hierarchy. Lastly, abundant image-wise semantics containing multi-object and their contexts are also distilled by an image-wise contrastive distillation. Benefiting from the elaborated semantic distillation in triple hierarchies, our HD-OVD inherits generalizable recognition ability from CLIP in instance, class, and image levels. Thus, we boost the novel AP on the OV-COCO dataset to 46.4% with a ResNet50 backbone, which outperforms others by a clear margin. We also conduct extensive ablation studies to analyze how each component works.
- Abstract(参考訳): Open-vocabulary Object Detection (OVD)は、トレーニングアノテーション以外のオブジェクトを検出することを目的としており、検出器は通常、トレーニング済みの視覚言語モデル、例えばCLIPと整列して、検出器が新しいオブジェクトや新しいオブジェクトを認識できるように、その一般化可能な認識能力を継承する。
しかし、以前の作業では機能空間を直接CLIPと整列させ、セマンティック知識を効果的に学べなかった。
本稿では,CLIPモデルからの一般化可能な知識を3つの側面から生かした総合的な蒸留プロセスを構築するために,HD-OVDという階層的セマンティック蒸留フレームワークを提案する。
HD-OVDの第1階層において、検出器は視覚空間内の単一オブジェクト間の関係をモデル化することにより、CLIP画像エンコーダからきめ細かなインスタンスワイドセマンティクスを学習する。
さらに,2番目の階層を表すCLIPテキストエンコーダから,高度に一般化可能なクラスワイドセマンティクスを同化するために,テキスト空間の新規クラス対応分類を導入する。
最後に、多目的とそれらの文脈を含む画像的意味論を画像的コントラスト蒸留により蒸留する。
3階層の精巧なセマンティック蒸留から得られたHD-OVDは、CLIPのインスタンス、クラス、画像レベルから一般化可能な認識能力を継承する。
したがって、OV-COCOデータセット上の新しいAPを、ResNet50のバックボーンで46.4%に向上させます。
また、各コンポーネントがどのように動作するかを分析するために、広範囲にわたるアブレーション研究も行っています。
関連論文リスト
- DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Domain Adaptation for Large-Vocabulary Object Detectors [103.16365373806829]
本稿では,CLIPにおける暗黙的知識グラフ(KG)を利用した知識グラフ蒸留手法であるKGDについて述べる。
複数の広く採用されている検出ベンチマークに対する実験により、KGDは最先端技術よりも大きなマージンで一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-13T03:51:18Z) - Simple Image-level Classification Improves Open-vocabulary Object
Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。
近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。
これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文 参考訳(メタデータ) (2023-12-16T13:06:15Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。