論文の概要: Efficient Feature Distillation for Zero-shot Annotation Object Detection
- arxiv url: http://arxiv.org/abs/2303.12145v4
- Date: Thu, 2 Nov 2023 03:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 18:12:56.426746
- Title: Efficient Feature Distillation for Zero-shot Annotation Object Detection
- Title(参考訳): ゼロショットアノテーションオブジェクト検出のための効率的な特徴蒸留
- Authors: Zhuoming Liu, Xuefeng Hu, Ram Nevatia
- Abstract要約: 我々はZAD(Zero-shot Object Detection)と呼ばれる未知の物体を検知するための新しい設定を提案する。
トレーニング画像に新しいオブジェクトが存在するようにすることで、ゼロショットオブジェクト検出設定を拡張する。
また、検出器が使用する追加情報を新しいカテゴリ名に制限する。
- 参考スコア(独自算出の注目度): 12.116491963892821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new setting for detecting unseen objects called Zero-shot
Annotation object Detection (ZAD). It expands the zero-shot object detection
setting by allowing the novel objects to exist in the training images and
restricts the additional information the detector uses to novel category names.
Recently, to detect unseen objects, large-scale vision-language models (e.g.,
CLIP) are leveraged by different methods. The distillation-based methods have
good overall performance but suffer from a long training schedule caused by two
factors. First, existing work creates distillation regions biased to the base
categories, which limits the distillation of novel category information.
Second, directly using the raw feature from CLIP for distillation neglects the
domain gap between the training data of CLIP and the detection datasets, which
makes it difficult to learn the mapping from the image region to the
vision-language feature space. To solve these problems, we propose Efficient
feature distillation for Zero-shot Annotation object Detection (EZAD). Firstly,
EZAD adapts the CLIP's feature space to the target detection domain by
re-normalizing CLIP; Secondly, EZAD uses CLIP to generate distillation
proposals with potential novel category names to avoid the distillation being
overly biased toward the base categories. Finally, EZAD takes advantage of
semantic meaning for regression to further improve the model performance. As a
result, EZAD outperforms the previous distillation-based methods in COCO by 4%
with a much shorter training schedule and achieves a 3% improvement on the LVIS
dataset. Our code is available at https://github.com/dragonlzm/EZAD
- Abstract(参考訳): 本稿では,ゼロショットアノテーションオブジェクト検出(zad)と呼ばれる未知のオブジェクトを検出するための新しい設定を提案する。
ゼロショットオブジェクト検出設定を拡張し、トレーニング画像に新しいオブジェクトが存在できるようにし、検出器が使用する追加情報を新しいカテゴリ名に制限する。
近年、見えない物体を検出するために、大規模視覚言語モデル(例えばCLIP)が様々な方法で活用されている。
蒸留ベースの方法は全体的な性能は良好であるが、2つの要因により長い訓練スケジュールに苦しむ。
第一に、既存の作品は、新しいカテゴリ情報の蒸留を制限する基本カテゴリに偏った蒸留領域を作成する。
第2に,クリップの生特徴を蒸留に直接使用すると,クリップのトレーニングデータと検出データセットとの領域ギャップが無視されるため,画像領域から視覚言語特徴空間へのマッピングを学ぶのが困難になる。
これらの問題を解決するために,ゼロショットアノテーションオブジェクト検出(ezad)のための効率的な機能蒸留を提案する。
第一に、EZADはCLIPを再正規化することでCLIPの特徴空間をターゲット検出領域に適応させ、第二に、EZADはCLIPを使用して、潜在的に新しいカテゴリ名を持つ蒸留提案を生成し、基本カテゴリに過度に偏っているのを避ける。
最後に、EZADは回帰のセマンティックな意味を利用して、モデルの性能をさらに改善します。
その結果、EZADは従来のCOCO蒸留法を4%上回り、トレーニングスケジュールはずっと短く、LVISデータセットでは3%改善されている。
私たちのコードはhttps://github.com/dragonlzm/EZADで利用可能です。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Debiased Novel Category Discovering and Localization [40.02326438622898]
新たなクラスディスカバリー・ローカライゼーション(NCDL)の課題に焦点をあてる。
本稿では,クラス非依存領域提案ネットワーク(RPN)とクラス対応RPNを組み合わせたデバイアスドリージョンマイニング(DRM)手法を提案する。
我々はNCDLベンチマークで広範な実験を行い、提案手法が従来の手法よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2024-02-29T03:09:16Z) - Object-centric Cross-modal Feature Distillation for Event-based Object
Detection [87.50272918262361]
RGB検出器は、イベントデータのばらつきと視覚的詳細の欠如により、イベントベースの検出器よりも優れている。
これら2つのモード間の性能ギャップを縮めるための新しい知識蒸留手法を開発した。
対象中心蒸留により,イベントベースの学生物体検出装置の性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-11-09T16:33:08Z) - Efficient Object Detection in Optical Remote Sensing Imagery via
Attention-based Feature Distillation [29.821082433621868]
本研究では,物体検出のための注意型特徴蒸留(AFD)を提案する。
本稿では,背景要素と前景要素を効果的に区別するマルチインスタンスアテンション機構を提案する。
AFDは、他の最先端モデルの性能を効率よく達成する。
論文 参考訳(メタデータ) (2023-10-28T11:15:37Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。