Fugu-MT 論文翻訳(概要): A Simple Knowledge Distillation Framework for Open-world Object Detection

論文の概要: A Simple Knowledge Distillation Framework for Open-world Object Detection

arxiv url: http://arxiv.org/abs/2312.08653v1
Date: Thu, 14 Dec 2023 04:47:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 23:56:37.141477
Title: A Simple Knowledge Distillation Framework for Open-world Object Detection
Title（参考訳）: オープンワールドオブジェクト検出のための簡易知識蒸留フレームワーク
Authors: Shuailei Ma, Yuefeng Wang, Ying Wei, Jiaqi Fan, Xinyu Sun, Peihao Chen, Enming Zhang
Abstract要約: Open World Object Detection (OWOD) は、新しいコンピュータビジョンタスクである。 OWODアルゴリズムは、潜在的な未知/未知のオブジェクトをすべてローカライズし、段階的に学習することが期待されている。視覚言語から単一視覚モダリティへの知識蒸留のための減量損失関数を提案する。
参考スコア（独自算出の注目度）: 9.405917118896326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open World Object Detection (OWOD) is a novel computer vision task with a considerable challenge, bridging the gap between classic object detection (OD) benchmarks and real-world object detection. In addition to detecting and classifying seen/known objects, OWOD algorithms are expected to localize all potential unseen/unknown objects and incrementally learn them. The large pre-trained vision-language grounding models (VLM,eg, GLIP) have rich knowledge about the open world, but are limited by text prompts and cannot localize indescribable objects. However, there are many detection scenarios which pre-defined language descriptions are unavailable during inference. In this paper, we attempt to specialize the VLM model for OWOD task by distilling its open-world knowledge into a language-agnostic detector. Surprisingly, we observe that the combination of a simple knowledge distillation approach and the automatic pseudo-labeling mechanism in OWOD can achieve better performance for unknown object detection, even with a small amount of data. Unfortunately, knowledge distillation for unknown objects severely affects the learning of detectors with conventional structures for known objects, leading to catastrophic forgetting. To alleviate these problems, we propose the down-weight loss function for knowledge distillation from vision-language to single vision modality. Meanwhile, we decouple the learning of localization and recognition to reduce the impact of category interactions of known and unknown objects on the localization learning process. Comprehensive experiments performed on MS-COCO and PASCAL VOC demonstrate the effectiveness of our methods.
Abstract（参考訳）: Open World Object Detection (OWOD) は、古典的オブジェクト検出(OD)ベンチマークと現実世界のオブジェクト検出のギャップを埋める、非常に困難な新しいコンピュータビジョンタスクである。参照/既知のオブジェクトの検出と分類に加えて、owodアルゴリズムは、すべての潜在未認識/未知オブジェクトをローカライズし、段階的に学習することが期待されている。大規模な事前学習された視覚言語基底モデル(VLM,eg, GLIP)は、オープンワールドについて豊富な知識を持っているが、テキストプロンプトによって制限されており、説明不能なオブジェクトをローカライズできない。しかし、事前定義された言語記述が推論中に利用できない多くの検出シナリオが存在する。本稿では,オープンワールドの知識を言語に依存しない検知器に蒸留することにより,OWODタスクのためのVLMモデルを専門化しようとする。驚くべきことに、単純な知識蒸留アプローチとowodの自動擬似ラベル機構の組み合わせは、少量のデータでも未知の物体検出においてより良い性能を得ることができる。残念ながら、未知の物体に対する知識の蒸留は、既知の物体に対する従来の構造を持つ検出器の学習に大きな影響を与え、破滅的な忘れを招いた。これらの問題を緩和するために,視覚言語から単一視覚モダリティへの知識蒸留における減量損失関数を提案する。一方,ローカライゼーションと認識の学習を分離することで,未知の物体と未知の物体のカテゴリ間相互作用がローカライゼーション学習プロセスに与える影響を低減する。 MS-COCOとPASCAL VOCの総合的な実験により,本手法の有効性が示された。

関連論文リスト

OSAD: Open-Set Aircraft Detection in SAR Images [1.1060425537315088]
オープンセット検出は、クローズドセットでトレーニングされた検出器によって、すべての既知のオブジェクトを検出し、オープンセット環境で未知のオブジェクトを識別することを目的としている。これらの課題に対処するため、SAR画像のための新しいオープンセット航空機検出器、Open-Set Aircraft Detection (OSAD) が提案されている。グローバルコンテキストモデリング(GCM)、位置品質駆動型擬似ラベル生成(LPG)、プロトタイプコントラスト学習(PCL)の3つの専用コンポーネントを備えている。
論文参考訳（メタデータ） (2024-11-03T15:06:14Z)
Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文参考訳（メタデータ） (2024-09-24T13:13:34Z)
Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-01T17:32:26Z)
Semi-supervised Open-World Object Detection [74.95267079505145]
半教師付きオープンワールド検出(SS-OWOD)という,より現実的な定式化を導入する。提案したSS-OWOD設定では,最先端OWOD検出器の性能が劇的に低下することが実証された。我々は,MS COCO, PASCAL, Objects365, DOTAの4つのデータセットを用いた実験を行い, 提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-02-25T07:12:51Z)
Unsupervised Recognition of Unknown Objects for Open-World Object Detection [28.787586991713535]
Open-World Object Detection (OWOD) はオブジェクト検出問題を現実的でダイナミックなシナリオに拡張する。現在のOWODモデル(OREやOW-DETRなど)は、高い客観性スコアを持つ擬似ラベル領域に注目する。本稿では,未知の物体を認識するために,教師なしの識別モデルを学ぶ新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-31T08:17:29Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Detecting the open-world objects with the help of the Brain [20.00772846521719]
Open World Object Detection (OWOD) は、新しいコンピュータビジョンタスクである。 OWODアルゴリズムは、目に見えない、未知のオブジェクトを検出し、それを漸進的に学習することが期待されている。我々は、未知のラベルを単に生成することで、VLをオープンワールド検出器のBrain'として活用することを提案する。
論文参考訳（メタデータ） (2023-03-21T06:44:02Z)
Open-World Object Detection via Discriminative Class Prototype Learning [4.055884768256164]
オープンワールドオブジェクト検出(OWOD)は、オブジェクト検出とインクリメンタルラーニングとオープンセットラーニングを組み合わせた難しい問題である。 OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: オープンワールドオブジェクト検出
論文参考訳（メタデータ） (2023-02-23T03:05:04Z)
Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2022-12-06T13:39:30Z)
Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation [36.79599282372021]
開語彙1段階検出のための階層型視覚言語知識蒸留法,すなわちHierKDを提案する。我々の手法は、前回の最も優れた1段検出器の11.9%と6.7%のAP_50$ゲインをはるかに上回っている。
論文参考訳（メタデータ） (2022-03-20T16:31:49Z)
OW-DETR: Open-world Detection Transformer [90.56239673123804]
オープンワールドオブジェクト検出のための新しいエンドツーエンドトランスフォーマーベースのフレームワークOW-DETRを提案する。 OW-DETRは3つの専用コンポーネント、すなわち注目駆動の擬似ラベル、新規性分類、オブジェクトネススコアから構成される。我々のモデルは、最近導入されたOWODアプローチであるOREよりも優れており、リコールの度合いは1.8%から3.3%である。
論文参考訳（メタデータ） (2021-12-02T18:58:30Z)
Towards Open World Object Detection [68.79678648726416]
ORE: Open World Object Detectorは、対照的なクラスタリングとエネルギーベースの未知の識別に基づいている。未知のインスタンスの識別と特徴付けは、インクリメンタルなオブジェクト検出設定における混乱を減らすのに役立ちます。
論文参考訳（メタデータ） (2021-03-03T18:58:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。