論文の概要: Detecting Everything in the Open World: Towards Universal Object
Detection
- arxiv url: http://arxiv.org/abs/2303.11749v1
- Date: Tue, 21 Mar 2023 11:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 15:24:47.015897
- Title: Detecting Everything in the Open World: Towards Universal Object
Detection
- Title(参考訳): オープン世界のすべてを検知する:Universal Object Detectionを目指して
- Authors: Zhenyu Wang, Yali Li, Xi Chen, Ser-Nam Lim, Antonio Torralba,
Hengshuang Zhao, Shengjin Wang
- Abstract要約: オープン世界の巨大なカテゴリを認識できる汎用オブジェクト検出器である textbfUniDetector を提案する。
視覚と言語モダリティの両方からの豊富な情報のおかげで、目に見えるクラスと目に見えないクラスのバランスを維持しながら、オープンワールドに容易に一般化する。
LVIS、ImageNetBoxes、VisualGenomeのような大語彙データセット上で、ゼロショットの強力な一般化機能を実行する。
- 参考スコア(独自算出の注目度): 100.44132532444952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we formally address universal object detection, which aims to
detect every scene and predict every category. The dependence on human
annotations, the limited visual information, and the novel categories in the
open world severely restrict the universality of traditional detectors. We
propose \textbf{UniDetector}, a universal object detector that has the ability
to recognize enormous categories in the open world. The critical points for the
universality of UniDetector are: 1) it leverages images of multiple sources and
heterogeneous label spaces for training through the alignment of image and text
spaces, which guarantees sufficient information for universal representations.
2) it generalizes to the open world easily while keeping the balance between
seen and unseen classes, thanks to abundant information from both vision and
language modalities. 3) it further promotes the generalization ability to novel
categories through our proposed decoupling training manner and probability
calibration. These contributions allow UniDetector to detect over 7k
categories, the largest measurable category size so far, with only about 500
classes participating in training. Our UniDetector behaves the strong zero-shot
generalization ability on large-vocabulary datasets like LVIS, ImageNetBoxes,
and VisualGenome - it surpasses the traditional supervised baselines by more
than 4\% on average without seeing any corresponding images. On 13 public
detection datasets with various scenes, UniDetector also achieves
state-of-the-art performance with only a 3\% amount of training data.
- Abstract(参考訳): 本稿では,すべてのシーンを検出し,すべてのカテゴリを予測することを目的としたユニバーサルオブジェクト検出を正式に取り上げる。
人間のアノテーション、限られた視覚情報、オープンワールドにおける新しいカテゴリーへの依存は、従来の検出器の普遍性を厳しく制限する。
オープンワールドにおける巨大なカテゴリを認識できる普遍的なオブジェクト検出器である「textbf{UniDetector}」を提案する。
UniDetector の普遍性の臨界点は次のとおりである。
1)複数ソースおよび異種ラベル空間の画像を利用して画像とテキスト空間のアライメントを訓練し、普遍表現に十分な情報を保証する。
2)視覚と言語のモダリティの両方から豊富な情報を得て,目に見えるクラスと見えないクラスのバランスを保ちながら,オープンワールドに容易に一般化する。
3) 提案手法と確率校正により, 新たなカテゴリーの一般化能力をさらに向上させる。
これらの貢献により、UniDetectorは、これまでで最大の測定可能なカテゴリサイズである7k以上のカテゴリを検出できる。
当社のUniDetectorは、LVIS、ImageNetBoxes、VisualGenomeのような大語彙データセット上で、ゼロショットの強力な一般化機能を動作します。
さまざまなシーンを持つ13の公開検出データセットでは、UniDetectorは、トレーニングデータのわずか35%で最先端のパフォーマンスも達成している。
関連論文リスト
- Universal Object Detection with Large Vision Model [79.06618136217142]
本研究は,大規模多領域普遍物体検出問題に焦点をあてる。
これらの課題に対処するために,ラベル処理,階層型設計,資源効率のよいモデルトレーニングを提案する。
本手法は,ロバスト・ビジョン・チャレンジ2022のオブジェクト検出トラックにおいて,優れた2位の地位を確保した。
論文 参考訳(メタデータ) (2022-12-19T12:40:13Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Learning to Discover and Detect Objects [43.52208526783969]
新たなクラス発見・検出・ローカライゼーション(NCDL)の課題に取り組む。
この設定では、よく観察されるクラスのオブジェクトのラベル付きソースデータセットを仮定する。
検出ネットワークをエンドツーエンドでトレーニングすることにより、さまざまなクラスに対してすべてのリージョン提案を分類することが可能になる。
論文 参考訳(メタデータ) (2022-10-19T17:59:55Z) - Open Long-Tailed Recognition in a Dynamic World [82.91025831618545]
実世界のデータは、しばしば長い尾を持ち、(目に見えないクラスを持つ)オープンな分布を示す。
現実的な認識システムは、多数派(頭)クラスと少数派(尾)クラスの間でバランスを取り、分布を一般化し、見知らぬクラス(オープンクラス)のインスタンスで新規性を認める必要がある。
我々は,Open Long-Tailed Recognition++を,このような自然分布データからの学習として定義し,バランスの取れたテストセット上での分類精度を最適化する。
論文 参考訳(メタデータ) (2022-08-17T15:22:20Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - All the attention you need: Global-local, spatial-channel attention for
image retrieval [11.150896867058902]
大規模インスタンスレベルの画像検索のための表現学習に対処する。
バックボーンネットワークの端に付加されるグローバルローカルアテンションモジュール(GLAM)について述べる。
我々は,特徴テンソルを新たに獲得し,空間プーリングにより画像検索のための強力な埋め込みを学習する。
論文 参考訳(メタデータ) (2021-07-16T16:39:13Z) - Boosting Deep Open World Recognition by Clustering [37.5993398894786]
我々は、新たな損失定式化により、ディープ・オープンな世界認識アルゴリズムの性能を高める方法を示す。
本研究では,グローバルな1つの閾値を推定するのではなく,クラス固有の拒絶閾値を学習する戦略を提案する。
RGB-D ObjectとCore50の実験は、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-04-20T12:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。