論文の概要: A Simple Knowledge Distillation Framework for Open-world Object
Detection
- arxiv url: http://arxiv.org/abs/2312.08653v1
- Date: Thu, 14 Dec 2023 04:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 23:56:37.141477
- Title: A Simple Knowledge Distillation Framework for Open-world Object
Detection
- Title(参考訳): オープンワールドオブジェクト検出のための簡易知識蒸留フレームワーク
- Authors: Shuailei Ma, Yuefeng Wang, Ying Wei, Jiaqi Fan, Xinyu Sun, Peihao
Chen, Enming Zhang
- Abstract要約: Open World Object Detection (OWOD) は、新しいコンピュータビジョンタスクである。
OWODアルゴリズムは、潜在的な未知/未知のオブジェクトをすべてローカライズし、段階的に学習することが期待されている。
視覚言語から単一視覚モダリティへの知識蒸留のための減量損失関数を提案する。
- 参考スコア(独自算出の注目度): 9.405917118896326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open World Object Detection (OWOD) is a novel computer vision task with a
considerable challenge, bridging the gap between classic object detection (OD)
benchmarks and real-world object detection. In addition to detecting and
classifying seen/known objects, OWOD algorithms are expected to localize all
potential unseen/unknown objects and incrementally learn them. The large
pre-trained vision-language grounding models (VLM,eg, GLIP) have rich knowledge
about the open world, but are limited by text prompts and cannot localize
indescribable objects. However, there are many detection scenarios which
pre-defined language descriptions are unavailable during inference. In this
paper, we attempt to specialize the VLM model for OWOD task by distilling its
open-world knowledge into a language-agnostic detector. Surprisingly, we
observe that the combination of a simple knowledge distillation approach and
the automatic pseudo-labeling mechanism in OWOD can achieve better performance
for unknown object detection, even with a small amount of data. Unfortunately,
knowledge distillation for unknown objects severely affects the learning of
detectors with conventional structures for known objects, leading to
catastrophic forgetting. To alleviate these problems, we propose the
down-weight loss function for knowledge distillation from vision-language to
single vision modality. Meanwhile, we decouple the learning of localization and
recognition to reduce the impact of category interactions of known and unknown
objects on the localization learning process. Comprehensive experiments
performed on MS-COCO and PASCAL VOC demonstrate the effectiveness of our
methods.
- Abstract(参考訳): Open World Object Detection (OWOD) は、古典的オブジェクト検出(OD)ベンチマークと現実世界のオブジェクト検出のギャップを埋める、非常に困難な新しいコンピュータビジョンタスクである。
参照/既知のオブジェクトの検出と分類に加えて、owodアルゴリズムは、すべての潜在未認識/未知オブジェクトをローカライズし、段階的に学習することが期待されている。
大規模な事前学習された視覚言語基底モデル(VLM,eg, GLIP)は、オープンワールドについて豊富な知識を持っているが、テキストプロンプトによって制限されており、説明不能なオブジェクトをローカライズできない。
しかし、事前定義された言語記述が推論中に利用できない多くの検出シナリオが存在する。
本稿では,オープンワールドの知識を言語に依存しない検知器に蒸留することにより,OWODタスクのためのVLMモデルを専門化しようとする。
驚くべきことに、単純な知識蒸留アプローチとowodの自動擬似ラベル機構の組み合わせは、少量のデータでも未知の物体検出においてより良い性能を得ることができる。
残念ながら、未知の物体に対する知識の蒸留は、既知の物体に対する従来の構造を持つ検出器の学習に大きな影響を与え、破滅的な忘れを招いた。
これらの問題を緩和するために,視覚言語から単一視覚モダリティへの知識蒸留における減量損失関数を提案する。
一方,ローカライゼーションと認識の学習を分離することで,未知の物体と未知の物体のカテゴリ間相互作用がローカライゼーション学習プロセスに与える影響を低減する。
MS-COCOとPASCAL VOCの総合的な実験により,本手法の有効性が示された。
関連論文リスト
- Unsupervised Recognition of Unknown Objects for Open-World Object
Detection [28.787586991713535]
Open-World Object Detection (OWOD) はオブジェクト検出問題を現実的でダイナミックなシナリオに拡張する。
現在のOWODモデル(OREやOW-DETRなど)は、高い客観性スコアを持つ擬似ラベル領域に注目する。
本稿では,未知の物体を認識するために,教師なしの識別モデルを学ぶ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-31T08:17:29Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Detecting the open-world objects with the help of the Brain [20.00772846521719]
Open World Object Detection (OWOD) は、新しいコンピュータビジョンタスクである。
OWODアルゴリズムは、目に見えない、未知のオブジェクトを検出し、それを漸進的に学習することが期待されている。
我々は、未知のラベルを単に生成することで、VLをオープンワールド検出器のBrain'として活用することを提案する。
論文 参考訳(メタデータ) (2023-03-21T06:44:02Z) - Open-World Object Detection via Discriminative Class Prototype Learning [4.055884768256164]
オープンワールドオブジェクト検出(OWOD)は、オブジェクト検出とインクリメンタルラーニングとオープンセットラーニングを組み合わせた難しい問題である。
OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: オープンワールドオブジェクト検出
論文 参考訳(メタデータ) (2023-02-23T03:05:04Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Towards Open-Set Object Detection and Discovery [38.81806249664884]
我々は新しいタスク、すなわちOpen-Set Object Detection and Discovery(OSODD)を提案する。
本稿では、まずオープンセットオブジェクト検出器を用いて、未知のオブジェクトと未知のオブジェクトの両方を予測する2段階の手法を提案する。
そこで,予測対象を教師なしで表現し,未知対象の集合から新たなカテゴリを発見する。
論文 参考訳(メタデータ) (2022-04-12T08:07:01Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - OW-DETR: Open-world Detection Transformer [90.56239673123804]
オープンワールドオブジェクト検出のための新しいエンドツーエンドトランスフォーマーベースのフレームワークOW-DETRを提案する。
OW-DETRは3つの専用コンポーネント、すなわち注目駆動の擬似ラベル、新規性分類、オブジェクトネススコアから構成される。
我々のモデルは、最近導入されたOWODアプローチであるOREよりも優れており、リコールの度合いは1.8%から3.3%である。
論文 参考訳(メタデータ) (2021-12-02T18:58:30Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Towards Open World Object Detection [68.79678648726416]
ORE: Open World Object Detectorは、対照的なクラスタリングとエネルギーベースの未知の識別に基づいている。
未知のインスタンスの識別と特徴付けは、インクリメンタルなオブジェクト検出設定における混乱を減らすのに役立ちます。
論文 参考訳(メタデータ) (2021-03-03T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。