論文の概要: Open World Object Detection in the Era of Foundation Models
- arxiv url: http://arxiv.org/abs/2312.05745v1
- Date: Sun, 10 Dec 2023 03:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:04:10.935719
- Title: Open World Object Detection in the Era of Foundation Models
- Title(参考訳): ファンデーションモデルにおけるオープンワールドオブジェクト検出
- Authors: Orr Zohar, Alejandro Lozano, Shelly Goel, Serena Yeung, Kuan-Chieh
Wang
- Abstract要約: 5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
- 参考スコア(独自算出の注目度): 53.683963161370585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection is integral to a bevy of real-world applications, from
robotics to medical image analysis. To be used reliably in such applications,
models must be capable of handling unexpected - or novel - objects. The open
world object detection (OWD) paradigm addresses this challenge by enabling
models to detect unknown objects and learn discovered ones incrementally.
However, OWD method development is hindered due to the stringent benchmark and
task definitions. These definitions effectively prohibit foundation models.
Here, we aim to relax these definitions and investigate the utilization of
pre-trained foundation models in OWD. First, we show that existing benchmarks
are insufficient in evaluating methods that utilize foundation models, as even
naive integration methods nearly saturate these benchmarks. This result
motivated us to curate a new and challenging benchmark for these models.
Therefore, we introduce a new benchmark that includes five real-world
application-driven datasets, including challenging domains such as aerial and
surgical images, and establish baselines. We exploit the inherent connection
between classes in application-driven datasets and introduce a novel method,
Foundation Object detection Model for the Open world, or FOMO, which identifies
unknown objects based on their shared attributes with the base known objects.
FOMO has ~3x unknown object mAP compared to baselines on our benchmark.
However, our results indicate a significant place for improvement - suggesting
a great research opportunity in further scaling object detection methods to
real-world domains. Our code and benchmark are available at
https://orrzohar.github.io/projects/fomo/.
- Abstract(参考訳): 物体検出は、ロボット工学から医療画像解析まで、現実世界の様々な応用に不可欠なものだ。
このようなアプリケーションで確実に使用されるためには、モデルが予期せぬ(または新しい)オブジェクトを処理できる必要がある。
オープンワールドオブジェクト検出(OWD)パラダイムは、未知のオブジェクトを検出し、発見したオブジェクトを段階的に学習することで、この課題に対処する。
しかし、OWDメソッドの開発は、厳密なベンチマークとタスク定義のために妨げられている。
これらの定義は事実上基礎モデルを禁じる。
本稿では,これらの定義を緩和し,OWDにおける事前学習基盤モデルの利用について検討する。
まず,既存のベンチマークでは基礎モデルを用いた評価手法が不十分であることを示す。
その結果、これらのモデルの新たな、挑戦的なベンチマークをキュレートする動機になりました。
そこで我々は,航空画像や外科画像などの挑戦的領域を含む,現実世界のアプリケーション駆動データセット5つを含む新しいベンチマークを導入し,ベースラインを確立する。
アプリケーション駆動データセットのクラス間の固有の接続を利用し、新しいメソッドであるオープンワールドのためのファウンデーションオブジェクト検出モデル(fomo)を導入し、ベースとなる既知のオブジェクトと共有属性に基づいて未知のオブジェクトを識別する。
FOMOは、ベンチマークのベースラインに比べて、未知のオブジェクトmAPが約3倍である。
しかし,本研究の結果から,オブジェクト検出手法を現実世界のドメインに拡張する大きな研究機会が示唆された。
私たちのコードとベンチマークはhttps://orrzohar.github.io/projects/fomo/で利用可能です。
関連論文リスト
- Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。
提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - Beyond Few-shot Object Detection: A Detailed Survey [25.465534270637523]
研究者たちは、数発の学習とオブジェクト検出の原則を融合させる、数発のオブジェクト検出(FSOD)アプローチを導入した。
これらのアプローチは、広範なラベル付きデータセットへの依存を減らす上で重要な役割を果たす。
本研究の目的は,上記の数ショット設定を包括的に理解し,各FSODタスクの方法論を探索することである。
論文 参考訳(メタデータ) (2024-08-26T13:09:23Z) - Intelligence Analysis of Language Models [0.0]
本研究では,Large Language Models (LLMs) の Abstraction and Reasoning Corpus (ARC) データセットに対する有効性を検証する。
このデータセットは、抽象推論能力をテストするための代表的なベンチマークとして機能する。
モデル性能向上におけるChain-of-Thought(CoT)手法の適用性を検討した。
論文 参考訳(メタデータ) (2024-07-20T13:48:16Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。