論文の概要: Efficient Feature Distillation for Zero-shot Detection
- arxiv url: http://arxiv.org/abs/2303.12145v1
- Date: Tue, 21 Mar 2023 19:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 16:13:54.961267
- Title: Efficient Feature Distillation for Zero-shot Detection
- Title(参考訳): ゼロショット検出のための高効率特徴蒸留
- Authors: Zhuoming Liu, Xuefeng Hu, Ram Nevatia
- Abstract要約: ゼロショット検出(EZSD)のための効率的な特徴蒸留法を提案する。
EZSDはCLIPの機能空間をターゲット検出ドメインに適応させ、CLIPを再正規化し、ドメインギャップを埋める。
EZSDは、COCOゼロショットベンチマークにおいて、より短いトレーニングスケジュールで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.235272856978774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large-scale vision-language models (e.g., CLIP) are leveraged by
different methods to detect unseen objects. However, most of these works
require additional captions or images for training, which is not feasible in
the context of zero-shot detection. In contrast, the distillation-based method
is an extra-data-free method, but it has its limitations. Specifically,
existing work creates distillation regions that are biased to the base
categories, which limits the distillation of novel category information and
harms the distillation efficiency. Furthermore, directly using the raw feature
from CLIP for distillation neglects the domain gap between the training data of
CLIP and the detection datasets, which makes it difficult to learn the mapping
from the image region to the vision-language feature space - an essential
component for detecting unseen objects. As a result, existing
distillation-based methods require an excessively long training schedule. To
solve these problems, we propose Efficient feature distillation for Zero-Shot
Detection (EZSD). Firstly, EZSD adapts the CLIP's feature space to the target
detection domain by re-normalizing CLIP to bridge the domain gap; Secondly,
EZSD uses CLIP to generate distillation proposals with potential novel
instances, to avoid the distillation being overly biased to the base
categories. Finally, EZSD takes advantage of semantic meaning for regression to
further improve the model performance. As a result, EZSD achieves
state-of-the-art performance in the COCO zero-shot benchmark with a much
shorter training schedule and outperforms previous work by 4% in LVIS overall
setting with 1/10 training time.
- Abstract(参考訳): 大規模な視覚言語モデル(例えばCLIP)は、見えないオブジェクトを検出するために様々な方法によって活用される。
しかし、これらの作品の多くは訓練のために追加のキャプションや画像を必要とするが、ゼロショット検出の文脈では実現不可能である。
対照的に、蒸留ベースの方法は余分なデータのない方法であるが、その限界がある。
具体的には, 新たなカテゴリ情報の蒸留を制限し, 蒸留効率を損なう, 基本カテゴリに偏った蒸留領域を創出する。
さらに、蒸留のためにCLIPの生のフィーチャを直接使用すると、CLIPのトレーニングデータと検出データセットのドメインギャップが無視されるため、画像領域から視覚言語の特徴空間へのマッピングを学習することが困難になる。
その結果、既存の蒸留法は過度に長い訓練スケジュールを必要とする。
これらの問題を解決するため,ゼロショット検出(EZSD)のための効率的な特徴蒸留法を提案する。
第一に、EZSDはCLIPの機能空間をターゲット検出領域に適応させ、ドメインギャップを埋めるためにCLIPを再正規化する。
最後に、EZSDは、回帰のための意味論的意味を利用して、モデル性能をさらに改善する。
結果として、EZSDはCOCOゼロショットベンチマークにおいて、より短いトレーニングスケジュールで最先端のパフォーマンスを達成し、1/10のトレーニング時間でLVIS全体の4%向上した。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Debiased Novel Category Discovering and Localization [40.02326438622898]
新たなクラスディスカバリー・ローカライゼーション(NCDL)の課題に焦点をあてる。
本稿では,クラス非依存領域提案ネットワーク(RPN)とクラス対応RPNを組み合わせたデバイアスドリージョンマイニング(DRM)手法を提案する。
我々はNCDLベンチマークで広範な実験を行い、提案手法が従来の手法よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2024-02-29T03:09:16Z) - Object-centric Cross-modal Feature Distillation for Event-based Object
Detection [87.50272918262361]
RGB検出器は、イベントデータのばらつきと視覚的詳細の欠如により、イベントベースの検出器よりも優れている。
これら2つのモード間の性能ギャップを縮めるための新しい知識蒸留手法を開発した。
対象中心蒸留により,イベントベースの学生物体検出装置の性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-11-09T16:33:08Z) - Efficient Object Detection in Optical Remote Sensing Imagery via
Attention-based Feature Distillation [29.821082433621868]
本研究では,物体検出のための注意型特徴蒸留(AFD)を提案する。
本稿では,背景要素と前景要素を効果的に区別するマルチインスタンスアテンション機構を提案する。
AFDは、他の最先端モデルの性能を効率よく達成する。
論文 参考訳(メタデータ) (2023-10-28T11:15:37Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。