論文の概要: OW-Rep: Open World Object Detection with Instance Representation Learning
- arxiv url: http://arxiv.org/abs/2409.16073v2
- Date: Mon, 17 Mar 2025 04:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:56:35.884714
- Title: OW-Rep: Open World Object Detection with Instance Representation Learning
- Title(参考訳): OW-Rep: インスタンス表現学習によるオープンワールドオブジェクト検出
- Authors: Sunoh Lee, Minsik Jeon, Jihong Min, Junwon Seo,
- Abstract要約: Open World Object Detection (OWOD)は、見えないオブジェクトクラスが出現する現実的なシナリオに対処する。
OWODフレームワークを拡張して、未知のオブジェクトを共同で検出し、セマンティックにリッチなインスタンス埋め込みを学ぶ。
- 参考スコア(独自算出の注目度): 1.8749305679160366
- License:
- Abstract: Open World Object Detection(OWOD) addresses realistic scenarios where unseen object classes emerge, enabling detectors trained on known classes to detect unknown objects and incrementally incorporate the knowledge they provide. While existing OWOD methods primarily focus on detecting unknown objects, they often overlook the rich semantic relationships between detected objects, which are essential for scene understanding and applications in open-world environments (e.g., open-world tracking and novel class discovery). In this paper, we extend the OWOD framework to jointly detect unknown objects and learn semantically rich instance embeddings, enabling the detector to capture fine-grained semantic relationships between instances. To this end, we propose two modules that leverage the rich and generalizable knowledge of Vision Foundation Models(VFM). First, the Unknown Box Refine Module uses instance masks from the Segment Anything Model to accurately localize unknown objects. The Embedding Transfer Module then distills instance-wise semantic similarities from VFM features to the detector's embeddings via a relaxed contrastive loss, enabling the detector to learn a semantically meaningful and generalizable instance feature. Extensive experiments show that our method significantly improves both unknown object detection and instance embedding quality, while also enhancing performance in downstream tasks such as open-world tracking.
- Abstract(参考訳): Open World Object Detection(OWOD)は、未確認のオブジェクトクラスが出現する現実的なシナリオに対処し、既知のクラスでトレーニングされた検出器が未知のオブジェクトを検出し、それらが提供する知識を漸進的に組み込むことを可能にする。
既存のOWODメソッドは、主に未知のオブジェクトを検出することに焦点を当てているが、検出されたオブジェクト間のリッチな意味関係を見落としていることが多い。
本稿では、OWODフレームワークを拡張し、未知のオブジェクトを共同で検出し、セマンティックにリッチなインスタンス埋め込みを学習し、インスタンス間の微細なセマンティックな関係を検知できるようにする。
この目的のために、視覚基礎モデル(VFM)の豊かで一般化可能な知識を活用する2つのモジュールを提案する。
まず、Unknown Box Refine Moduleは、Segment Anything Modelのインスタンスマスクを使用して、未知のオブジェクトを正確にローカライズする。
エンベディングトランスファーモジュールは、VFM特徴から、緩和されたコントラスト損失を通じて検出器の埋め込みへのインスタンスワイドなセマンティックな類似性を蒸留し、検出器が意味論的かつ一般化可能なインスタンス特徴を学習できるようにする。
大規模な実験により,本手法は未知のオブジェクト検出とインスタンスの埋め込み品質の両方を著しく向上させるとともに,オープンワールドトラッキングなどの下流タスクの性能向上を図っている。
関連論文リスト
- From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects [0.6262268096839562]
オープン語彙オブジェクト検出(OVD)に関する最近の研究により、非有界語彙によって定義されたオブジェクトの検出が可能になった。
OVDは'oracle'によって提供される正確なプロンプトに依存しており、シーンの知覚を駆動するといった重要なアプリケーションでの使用を制限する。
我々は,OVDモデルをオープンワールドで動作させるフレームワークを提案し,新しいオブジェクトを段階的に識別し,学習する。
論文 参考訳(メタデータ) (2024-11-27T10:33:51Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection [52.16237548064387]
Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。
近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。
本研究では,局所的な部分に応じて大域的オブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-15T06:55:43Z) - Unsupervised Recognition of Unknown Objects for Open-World Object
Detection [28.787586991713535]
Open-World Object Detection (OWOD) はオブジェクト検出問題を現実的でダイナミックなシナリオに拡張する。
現在のOWODモデル(OREやOW-DETRなど)は、高い客観性スコアを持つ擬似ラベル領域に注目する。
本稿では,未知の物体を認識するために,教師なしの識別モデルを学ぶ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-31T08:17:29Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Detecting the open-world objects with the help of the Brain [20.00772846521719]
Open World Object Detection (OWOD) は、新しいコンピュータビジョンタスクである。
OWODアルゴリズムは、目に見えない、未知のオブジェクトを検出し、それを漸進的に学習することが期待されている。
我々は、未知のラベルを単に生成することで、VLをオープンワールド検出器のBrain'として活用することを提案する。
論文 参考訳(メタデータ) (2023-03-21T06:44:02Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Towards Open-Set Object Detection and Discovery [38.81806249664884]
我々は新しいタスク、すなわちOpen-Set Object Detection and Discovery(OSODD)を提案する。
本稿では、まずオープンセットオブジェクト検出器を用いて、未知のオブジェクトと未知のオブジェクトの両方を予測する2段階の手法を提案する。
そこで,予測対象を教師なしで表現し,未知対象の集合から新たなカテゴリを発見する。
論文 参考訳(メタデータ) (2022-04-12T08:07:01Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。