論文の概要: Generative Region-Language Pretraining for Open-Ended Object Detection
- arxiv url: http://arxiv.org/abs/2403.10191v1
- Date: Fri, 15 Mar 2024 10:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:30:38.921293
- Title: Generative Region-Language Pretraining for Open-Ended Object Detection
- Title(参考訳): オープンエンディング対象検出のための生成領域言語事前学習
- Authors: Chuang Lin, Yi Jiang, Lizhen Qu, Zehuan Yuan, Jianfei Cai,
- Abstract要約: 我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 55.42484781608621
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In recent research, significant attention has been devoted to the open-vocabulary object detection task, aiming to generalize beyond the limited number of classes labeled during training and detect objects described by arbitrary category names at inference. Compared with conventional object detection, open vocabulary object detection largely extends the object detection categories. However, it relies on calculating the similarity between image regions and a set of arbitrary category names with a pretrained vision-and-language model. This implies that, despite its open-set nature, the task still needs the predefined object categories during the inference stage. This raises the question: What if we do not have exact knowledge of object categories during inference? In this paper, we call such a new setting as generative open-ended object detection, which is a more general and practical problem. To address it, we formulate object detection as a generative problem and propose a simple framework named GenerateU, which can detect dense objects and generate their names in a free-form way. Particularly, we employ Deformable DETR as a region proposal generator with a language model translating visual regions to object names. To assess the free-form object detection task, we introduce an evaluation method designed to quantitatively measure the performance of generative outcomes. Extensive experiments demonstrate strong zero-shot detection performance of our GenerateU. For example, on the LVIS dataset, our GenerateU achieves comparable results to the open-vocabulary object detection method GLIP, even though the category names are not seen by GenerateU during inference. Code is available at: https:// github.com/FoundationVision/GenerateU .
- Abstract(参考訳): 近年の研究では、学習中にラベル付けされたクラス数を超えて一般化し、推論時に任意のカテゴリ名で記述されたオブジェクトを検出することを目的として、オープン語彙オブジェクト検出タスクに注目が集まっている。
従来のオブジェクト検出と比較して、オープン語彙オブジェクト検出は、オブジェクト検出カテゴリを大きく拡張する。
しかし、事前に訓練された視覚・言語モデルを用いて、画像領域と任意のカテゴリ名の集合との類似性を計算することに依存する。
これは、その開集合の性質にもかかわらず、そのタスクは推論段階でも定義済みのオブジェクトカテゴリが必要であることを意味する。
もし推論中にオブジェクトカテゴリの正確な知識がなければどうでしょう?
本稿では、このような新しい設定を生成的オープンエンドオブジェクト検出と呼び、より汎用的で実用的な問題である。
そこで我々は,オブジェクト検出を生成問題として定式化し,高密度なオブジェクトを検出し,その名前を自由形式の方法で生成するGenerateUというシンプルなフレームワークを提案する。
特に,視覚領域をオブジェクト名に翻訳する言語モデルを備えた領域提案生成器としてDeformable DETRを用いる。
自由形オブジェクト検出タスクを評価するために,生成結果の性能を定量的に測定する評価手法を提案する。
大規模な実験では、GenerateUのゼロショット検出性能が強かった。
例えば、LVISデータセットでは、GenerateUは推論中にカテゴリ名が見えないにもかかわらず、オープン語彙オブジェクト検出メソッドGLIPと同等の結果を得る。
コードは、https:// github.com/FoundationVision/GenerateUで入手できる。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文 参考訳(メタデータ) (2023-11-29T10:40:52Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Objects in Semantic Topology [36.297624587122506]
認定されたオープンワールドオブジェクト検出器は、既知のカテゴリのオブジェクトを識別できるだけでなく、未知のオブジェクトも発見できる。
我々は統一された視点:意味的トポロジーを提供する。
実験により、ランダムに生成されたか、十分に訓練された言語モデルから派生したセマンティックトポロジーが、現在の最先端のオープンワールドオブジェクト検出器より優れていることが示された。
論文 参考訳(メタデータ) (2021-10-06T12:15:30Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Class-agnostic Object Detection [16.97782147401037]
本稿では,オブジェクトのクラスに関係なくオブジェクトを検出することに焦点を当てた新しい問題として,クラスに依存しないオブジェクト検出を提案する。
具体的には、イメージ内のすべてのオブジェクトのバウンディングボックスを予測することであり、オブジェクトクラスではない。
本稿では,この領域における今後の研究を進めるために,クラス非依存検出器のベンチマークのためのトレーニングおよび評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-28T19:22:38Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。