論文の概要: From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects
- arxiv url: http://arxiv.org/abs/2411.18207v2
- Date: Sun, 01 Dec 2024 10:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:36:04.551361
- Title: From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects
- Title(参考訳): オープン・ボキャブラリからオープン・ワールドへ:新しい物体を検出するビジョン言語モデルを教える
- Authors: Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham,
- Abstract要約: オープン語彙オブジェクト検出(OVD)に関する最近の研究により、非有界語彙によって定義されたオブジェクトの検出が可能になった。
OVDは'oracle'によって提供される正確なプロンプトに依存しており、シーンの知覚を駆動するといった重要なアプリケーションでの使用を制限する。
我々は,OVDモデルをオープンワールドで動作させるフレームワークを提案し,新しいオブジェクトを段階的に識別し,学習する。
- 参考スコア(独自算出の注目度): 0.6262268096839562
- License:
- Abstract: Traditional object detection methods operate under the closed-set assumption, where models can only detect a fixed number of objects predefined in the training set. Recent works on open vocabulary object detection (OVD) enable the detection of objects defined by an unbounded vocabulary, which reduces the cost of training models for specific tasks. However, OVD heavily relies on accurate prompts provided by an ''oracle'', which limits their use in critical applications such as driving scene perception. OVD models tend to misclassify near-out-of-distribution (NOOD) objects that have similar semantics to known classes, and ignore far-out-of-distribution (FOOD) objects. To address theses limitations, we propose a framework that enables OVD models to operate in open world settings, by identifying and incrementally learning novel objects. To detect FOOD objects, we propose Open World Embedding Learning (OWEL) and introduce the concept of Pseudo Unknown Embedding which infers the location of unknown classes in a continuous semantic space based on the information of known classes. We also propose Multi-Scale Contrastive Anchor Learning (MSCAL), which enables the identification of misclassified unknown objects by promoting the intra-class consistency of object embeddings at different scales. The proposed method achieves state-of-the-art performance in common open world object detection and autonomous driving benchmarks.
- Abstract(参考訳): 従来のオブジェクト検出方法はクローズドセットの仮定の下で動作し、モデルがトレーニングセットで事前に定義された固定数のオブジェクトしか検出できない。
オープン語彙オブジェクト検出(OVD)に関する最近の研究により、非有界語彙によって定義されたオブジェクトの検出が可能となり、特定のタスクに対するトレーニングモデルのコストが削減される。
しかし、OVDは「オークル」によって提供される正確なプロンプトに大きく依存しており、シーンの知覚を駆動するといった重要なアプリケーションでの使用を制限する。
OVDモデルは、既知のクラスに類似したセマンティクスを持つNOODオブジェクトを誤って分類し、FODオブジェクトを無視する傾向にある。
これらの制約に対処するため,OVDモデルをオープンな環境で動作させるためのフレームワークを提案し,新しいオブジェクトを同定し,漸進的に学習する。
FOODオブジェクトを検出するために,オープンワールド埋め込み学習(OWEL)を提案し,未知のクラスの位置を既知のクラスの情報に基づいて連続的な意味空間に推論する擬似未知の埋め込み(Pseudo Unknown Embedding)の概念を導入する。
また,マルチスケールコントラスト型アンカーラーニング(MSCAL)を提案し,異なるスケールでのオブジェクト埋め込みのクラス内一貫性を促進させることにより,未知のオブジェクトの識別を可能にする。
提案手法は,オープンワールドオブジェクト検出と自律運転ベンチマークにおいて,最先端の性能を実現する。
関連論文リスト
- Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。
提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - Few-shot Object Detection in Remote Sensing: Lifting the Curse of
Incompletely Annotated Novel Objects [23.171410277239534]
物体検出のための自己学習型FSOD (ST-FSOD) アプローチを提案する。
提案手法は,様々なFSOD設定における最先端性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2023-09-19T13:00:25Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Open-World Object Detection via Discriminative Class Prototype Learning [4.055884768256164]
オープンワールドオブジェクト検出(OWOD)は、オブジェクト検出とインクリメンタルラーニングとオープンセットラーニングを組み合わせた難しい問題である。
OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: 差別的OCPL: 差別的OCPL: オープンワールドオブジェクト検出: オープンワールドオブジェクト検出
論文 参考訳(メタデータ) (2023-02-23T03:05:04Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Towards Open-Set Object Detection and Discovery [38.81806249664884]
我々は新しいタスク、すなわちOpen-Set Object Detection and Discovery(OSODD)を提案する。
本稿では、まずオープンセットオブジェクト検出器を用いて、未知のオブジェクトと未知のオブジェクトの両方を予測する2段階の手法を提案する。
そこで,予測対象を教師なしで表現し,未知対象の集合から新たなカテゴリを発見する。
論文 参考訳(メタデータ) (2022-04-12T08:07:01Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。