論文の概要: The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding
- arxiv url: http://arxiv.org/abs/2311.17518v2
- Date: Fri, 5 Apr 2024 19:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 02:06:00.418674
- Title: The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding
- Title(参考訳): 悪魔は細かな詳細の中にいる: 細かな理解のためにオープン語彙オブジェクト検出器を評価する
- Authors: Lorenzo Bianchi, Fabio Carrara, Nicola Messina, Claudio Gennaro, Fabrizio Falchi,
- Abstract要約: 本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
- 参考スコア(独自算出の注目度): 8.448399308205266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large vision-language models enabled visual object detection in open-vocabulary scenarios, where object classes are defined in free-text formats during inference. In this paper, we aim to probe the state-of-the-art methods for open-vocabulary object detection to determine to what extent they understand fine-grained properties of objects and their parts. To this end, we introduce an evaluation protocol based on dynamic vocabulary generation to test whether models detect, discern, and assign the correct fine-grained description to objects in the presence of hard-negative classes. We contribute with a benchmark suite of increasing difficulty and probing different properties like color, pattern, and material. We further enhance our investigation by evaluating several state-of-the-art open-vocabulary object detectors using the proposed protocol and find that most existing solutions, which shine in standard open-vocabulary benchmarks, struggle to accurately capture and distinguish finer object details. We conclude the paper by highlighting the limitations of current methodologies and exploring promising research directions to overcome the discovered drawbacks. Data and code are available at https://lorebianchi98.github.io/FG-OVD/.
- Abstract(参考訳): 大規模視覚言語モデルの最近の進歩は、推論中にオブジェクトクラスを自由テキスト形式で定義するオープン語彙シナリオにおける視覚的オブジェクト検出を可能にした。
本稿では,オープン語彙オブジェクト検出の最先端手法を探索し,オブジェクトとその部分の微細な特性がどの程度理解されているかを明らかにすることを目的とする。
そこで本研究では、動的語彙生成に基づく評価プロトコルを導入し、モデルがハードネガティブなクラスの存在下でオブジェクトに対して正確な粒度記述を検出し、識別し、割り当てするかどうかを検証する。
難易度を高め、色、パターン、材料といった異なる特性を探索するベンチマークスイートにコントリビュートしています。
提案プロトコルを用いて最先端のオープンボキャブラリオブジェクト検出器を複数評価し,標準のオープンボキャブラリベンチマークに照らされた既存のほとんどのソリューションが,より微細なオブジェクトの詳細を正確に把握し識別するのに苦労していることを見出した。
本稿は、現在の方法論の限界を強調し、発見された欠点を克服するための有望な研究方向性を探求することによって、結論を導いた。
データとコードはhttps://lorebianchi98.github.io/FG-OVD/で入手できる。
関連論文リスト
- Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey [10.665235711722076]
オブジェクト指向物体検出は、リモートセンシングにおいて最も基本的で困難なタスクの1つである。
近年,ディープラーニング技術を用いたオブジェクト指向物体検出の進歩が目覚ましい。
論文 参考訳(メタデータ) (2023-02-21T06:31:53Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。