論文の概要: Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2203.10593v1
- Date: Sun, 20 Mar 2022 16:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:48:13.096297
- Title: Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language
Knowledge Distillation
- Title(参考訳): 階層的視覚言語知識蒸留によるボカブラリー1段階検出
- Authors: Zongyang Ma, Guan Luo, Jin Gao, Liang Li, Yuxin Chen, Shaoru Wang,
Congxuan Zhang, Weiming Hu
- Abstract要約: 開語彙1段階検出のための階層型視覚言語知識蒸留法,すなわちHierKDを提案する。
我々の手法は、前回の最も優れた1段検出器の11.9%と6.7%のAP_50$ゲインをはるかに上回っている。
- 参考スコア(独自算出の注目度): 36.79599282372021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection aims to detect novel object categories
beyond the training set.
The advanced open-vocabulary two-stage detectors employ instance-level
visual-to-visual knowledge distillation to align the visual space of the
detector with the semantic space of the Pre-trained Visual-Language Model
(PVLM).
However, in the more efficient one-stage detector, the absence of
class-agnostic object proposals hinders the knowledge distillation on unseen
objects, leading to severe performance degradation.
In this paper, we propose a hierarchical visual-language knowledge
distillation method, i.e., HierKD, for open-vocabulary one-stage detection.
Specifically, a global-level knowledge distillation is explored to transfer
the knowledge of unseen categories from the PVLM to the detector.
Moreover, we combine the proposed global-level knowledge distillation and the
common instance-level knowledge distillation to learn the knowledge of seen and
unseen categories simultaneously.
Extensive experiments on MS-COCO show that our method significantly surpasses
the previous best one-stage detector with 11.9\% and 6.7\% $AP_{50}$ gains
under the zero-shot detection and generalized zero-shot detection settings, and
reduces the $AP_{50}$ performance gap from 14\% to 7.3\% compared to the best
two-stage detector.
- Abstract(参考訳): open-vocabulary object detectionは、トレーニングセットを超えて新しいオブジェクトカテゴリを検出することを目的としている。
先進的な開語彙2段階検出器は、インスタンスレベルの視覚-視覚的知識蒸留を用いて、検出器の視覚空間と事前訓練された視覚-言語モデル(PVLM)の意味空間を整合させる。
しかし、より効率的な1段検出器では、クラスに依存しない物体の提案がないため、未知の物体の知識蒸留が妨げられ、性能が著しく低下する。
本稿では,開語彙1段階検出のための階層型視覚言語知識蒸留法,すなわちHierKDを提案する。
特に, pvlm から検出器へ未発見のカテゴリの知識を伝達するために, グローバルレベルの知識蒸留法が検討されている。
さらに, 提案するグローバルレベルの知識蒸留と共通インスタンスレベルの知識蒸留を組み合わせて, 目に見えないカテゴリーの知識を同時に学習する。
MS-COCOの大規模実験により, ゼロショット検出および一般化ゼロショット検出設定により, 従来最高の1ステージ検出器の1.9\%および6.7\%$AP_{50}$ゲインを著しく上回り, 最高の2ステージ検出器と比較して, パフォーマンスギャップを14\%から7.3\%に低減した。
関連論文リスト
- Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - SKDF: A Simple Knowledge Distillation Framework for Distilling Open-Vocabulary Knowledge to Open-world Object Detector [8.956773268679811]
我々は、オープンワールドの知識を言語に依存しない検出器に蒸留することでOWODタスクのためのVLMモデルを特化する。
我々は,単純なtextbfknowledge蒸留法とOWODの自動擬似ラベル機構を組み合わせることで,未知の物体検出に優れた性能が得られることを観察した。
オープン世界の未知の物体を検知するオープンワールド検出器の能力を評価するための2つのベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-14T04:47:20Z) - Efficient Object Detection in Optical Remote Sensing Imagery via
Attention-based Feature Distillation [29.821082433621868]
本研究では,物体検出のための注意型特徴蒸留(AFD)を提案する。
本稿では,背景要素と前景要素を効果的に区別するマルチインスタンスアテンション機構を提案する。
AFDは、他の最先端モデルの性能を効率よく達成する。
論文 参考訳(メタデータ) (2023-10-28T11:15:37Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Response-based Distillation for Incremental Object Detection [2.337183337110597]
従来の物体検出は漸進的な学習には不適当である。
新しいデータのみを用いて、よく訓練された検出モデルを直接微調整することで、破滅的な忘れを招きます。
本研究では,検出境界ボックスからの学習応答と分類予測に着目した完全応答に基づくインクリメンタル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-10-26T08:07:55Z) - Label Assignment Distillation for Object Detection [0.0]
我々は,オブジェクト検出におけるラベル割り当てに着目した,単純だが効果的な知識蒸留手法を考案した。
提案手法は, MSCOCO 2017ベンチマークで有望な結果を示す。
論文 参考訳(メタデータ) (2021-09-16T10:11:58Z) - G-DetKD: Towards General Distillation Framework for Object Detectors via
Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。
また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。
本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-08-17T07:44:27Z) - Distilling Image Classifiers in Object Detectors [81.63849985128527]
本研究では, 物体検出の事例について検討し, 標準検出器-検出器蒸留法に従わず, 分類器-検出器間知識伝達フレームワークを導入する。
特に,検知器の認識精度とローカライゼーション性能を両立させるため,分類教師を利用する手法を提案する。
論文 参考訳(メタデータ) (2021-06-09T16:50:10Z) - Robust and Accurate Object Detection via Adversarial Learning [111.36192453882195]
この研究は、逆の例を探索することで、物体検出器の微調整段階を補強する。
提案手法は,オブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。
論文 参考訳(メタデータ) (2021-03-23T19:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。