論文の概要: SKDF: A Simple Knowledge Distillation Framework for Distilling Open-Vocabulary Knowledge to Open-world Object Detector
- arxiv url: http://arxiv.org/abs/2312.08653v2
- Date: Sat, 30 Mar 2024 06:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:45:23.945817
- Title: SKDF: A Simple Knowledge Distillation Framework for Distilling Open-Vocabulary Knowledge to Open-world Object Detector
- Title(参考訳): SKDF:オープンワールドオブジェクト検出器にオープン語彙知識を蒸留するための簡易な知識蒸留フレームワーク
- Authors: Shuailei Ma, Yuefeng Wang, Ying Wei, Jiaqi Fan, Enming Zhang, Xinyu Sun, Peihao Chen,
- Abstract要約: 我々は、オープンワールドの知識を言語に依存しない検出器に蒸留することでOWODタスクのためのVLMモデルを特化する。
我々は,単純なtextbfknowledge蒸留法とOWODの自動擬似ラベル機構を組み合わせることで,未知の物体検出に優れた性能が得られることを観察した。
オープン世界の未知の物体を検知するオープンワールド検出器の能力を評価するための2つのベンチマークを提案する。
- 参考スコア(独自算出の注目度): 8.956773268679811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we attempt to specialize the VLM model for OWOD tasks by distilling its open-world knowledge into a language-agnostic detector. Surprisingly, we observe that the combination of a simple \textbf{knowledge distillation} approach and the automatic pseudo-labeling mechanism in OWOD can achieve better performance for unknown object detection, even with a small amount of data. Unfortunately, knowledge distillation for unknown objects severely affects the learning of detectors with conventional structures for known objects, leading to catastrophic forgetting. To alleviate these problems, we propose the \textbf{down-weight loss function} for knowledge distillation from vision-language to single vision modality. Meanwhile, we propose the \textbf{cascade decouple decoding structure} that decouples the learning of localization and recognition to reduce the impact of category interactions of known and unknown objects on the localization learning process. Ablation experiments demonstrate that both of them are effective in mitigating the impact of open-world knowledge distillation on the learning of known objects. Additionally, to alleviate the current lack of comprehensive benchmarks for evaluating the ability of the open-world detector to detect unknown objects in the open world, we propose two benchmarks, which we name "\textbf{StandardSet}$\heartsuit$" and "\textbf{IntensiveSet}$\spadesuit$" respectively, based on the complexity of their testing scenarios. Comprehensive experiments performed on OWOD, MS-COCO, and our proposed benchmarks demonstrate the effectiveness of our methods. The code and proposed dataset are available at \url{https://github.com/xiaomabufei/SKDF}.
- Abstract(参考訳): 本稿では,オープンワールドの知識を言語に依存しない検出器に蒸留することにより,OWODタスクのためのVLMモデルを専門化しようとする。
驚いたことに、OWODにおける単純な \textbf{knowledge distillation} 法と自動擬似ラベル機構の組み合わせは、少量のデータであっても、未知の物体の検出においてより良い性能が得られることが観察された。
残念ながら、未知の物体に対する知識の蒸留は、既知の物体に対する従来の構造を持つ検出器の学習に大きな影響を与え、破滅的な忘れを招いた。
これらの問題を緩和するために、視覚言語から単一視覚モダリティへの知識蒸留のための「textbf{down-weight loss function」を提案する。
一方,未知と未知の物体のカテゴリ間相互作用が局所化学習プロセスに与える影響を低減するために,局所化と認識の学習を分離する「textbf{cascade decouple decoding structure」を提案する。
アブレーション実験は、両者が既知の物体の学習に対するオープンワールドの知識蒸留の影響を緩和するのに有効であることを示した。
さらに、オープン世界の未知の物体を検知するオープンワールド検出器の能力を評価するための、現在の包括的なベンチマークの欠如を緩和するため、テストシナリオの複雑さに基づいて、「\textbf{StandardSet}$\heartsuit$」と「\textbf{IntensiveSet}$\spadesuit$」という2つのベンチマークを提案する。
OWOD, MS-COCO, 提案したベンチマークで実施した総合的な実験により, 提案手法の有効性が示された。
コードと提案されたデータセットは \url{https://github.com/xiaomabufei/SKDF} で公開されている。
関連論文リスト
- Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。
提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - Semi-supervised Open-World Object Detection [74.95267079505145]
半教師付きオープンワールド検出(SS-OWOD)という,より現実的な定式化を導入する。
提案したSS-OWOD設定では,最先端OWOD検出器の性能が劇的に低下することが実証された。
我々は,MS COCO, PASCAL, Objects365, DOTAの4つのデータセットを用いた実験を行い, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-25T07:12:51Z) - Unsupervised Recognition of Unknown Objects for Open-World Object
Detection [28.787586991713535]
Open-World Object Detection (OWOD) はオブジェクト検出問題を現実的でダイナミックなシナリオに拡張する。
現在のOWODモデル(OREやOW-DETRなど)は、高い客観性スコアを持つ擬似ラベル領域に注目する。
本稿では,未知の物体を認識するために,教師なしの識別モデルを学ぶ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-31T08:17:29Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Detecting the open-world objects with the help of the Brain [20.00772846521719]
Open World Object Detection (OWOD) は、新しいコンピュータビジョンタスクである。
OWODアルゴリズムは、目に見えない、未知のオブジェクトを検出し、それを漸進的に学習することが期待されている。
我々は、未知のラベルを単に生成することで、VLをオープンワールド検出器のBrain'として活用することを提案する。
論文 参考訳(メタデータ) (2023-03-21T06:44:02Z) - Open-World Object Detection via Discriminative Class Prototype Learning [4.055884768256164]
オープンワールドオブジェクト検出(OWOD)は、オブジェクト検出とインクリメンタルラーニングとオープンセットラーニングを組み合わせた難しい問題である。
OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: オープンワールドオブジェクト検出
論文 参考訳(メタデータ) (2023-02-23T03:05:04Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language
Knowledge Distillation [36.79599282372021]
開語彙1段階検出のための階層型視覚言語知識蒸留法,すなわちHierKDを提案する。
我々の手法は、前回の最も優れた1段検出器の11.9%と6.7%のAP_50$ゲインをはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-20T16:31:49Z) - OW-DETR: Open-world Detection Transformer [90.56239673123804]
オープンワールドオブジェクト検出のための新しいエンドツーエンドトランスフォーマーベースのフレームワークOW-DETRを提案する。
OW-DETRは3つの専用コンポーネント、すなわち注目駆動の擬似ラベル、新規性分類、オブジェクトネススコアから構成される。
我々のモデルは、最近導入されたOWODアプローチであるOREよりも優れており、リコールの度合いは1.8%から3.3%である。
論文 参考訳(メタデータ) (2021-12-02T18:58:30Z) - Towards Open World Object Detection [68.79678648726416]
ORE: Open World Object Detectorは、対照的なクラスタリングとエネルギーベースの未知の識別に基づいている。
未知のインスタンスの識別と特徴付けは、インクリメンタルなオブジェクト検出設定における混乱を減らすのに役立ちます。
論文 参考訳(メタデータ) (2021-03-03T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。