論文の概要: The devil is in the fine-grained details: Evaluating open-vocabulary
object detectors for fine-grained understanding
- arxiv url: http://arxiv.org/abs/2311.17518v1
- Date: Wed, 29 Nov 2023 10:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:40:34.070708
- Title: The devil is in the fine-grained details: Evaluating open-vocabulary
object detectors for fine-grained understanding
- Title(参考訳): 悪魔は細かな詳細の中にいる: 細かな理解のためにオープン語彙オブジェクト検出器を評価する
- Authors: Lorenzo Bianchi, Fabio Carrara, Nicola Messina, Claudio Gennaro and
Fabrizio Falchi
- Abstract要約: 本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
- 参考スコア(独自算出の注目度): 9.063831016543437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large vision-language models enabled visual object
detection in open-vocabulary scenarios, where object classes are defined in
free-text formats during inference. In this paper, we aim to probe the
state-of-the-art methods for open-vocabulary object detection to determine to
what extent they understand fine-grained properties of objects and their parts.
To this end, we introduce an evaluation protocol based on dynamic vocabulary
generation to test whether models detect, discern, and assign the correct
fine-grained description to objects in the presence of hard-negative classes.
We contribute with a benchmark suite of increasing difficulty and probing
different properties like color, pattern, and material. We further enhance our
investigation by evaluating several state-of-the-art open-vocabulary object
detectors using the proposed protocol and find that most existing solutions,
which shine in standard open-vocabulary benchmarks, struggle to accurately
capture and distinguish finer object details. We conclude the paper by
highlighting the limitations of current methodologies and exploring promising
research directions to overcome the discovered drawbacks. Data and code are
available at https://github.com/lorebianchi98/FG-OVD.
- Abstract(参考訳): 大規模視覚言語モデルの最近の進歩により、オープン語彙シナリオにおける視覚的オブジェクト検出が可能になった。
本稿では,オープンボキャブラリー物体検出の最先端手法を探究し,物体とその部分の細粒度特性をどの程度理解しているかを探究する。
この目的のために,動的語彙生成に基づく評価プロトコルを導入し,モデルがハード陰性クラスの存在下で,正しい細粒度記述をオブジェクトに検出・識別・割り当てするかどうかを検証する。
色やパターン、素材といったさまざまな特性を調査し、難易度を増すベンチマークスイートにコントリビュートしています。
我々は,提案プロトコルを用いて,最先端のオープンボキャブラリ物体検出器の評価を行い,標準のオープンボキャブラリベンチマークで輝いている既存のソリューションのほとんどが,より詳細なオブジェクト詳細の把握と識別に苦労していることを見出した。
本稿は,現在の方法論の限界を強調し,問題点を克服するための有望な研究方向を検討することで結論づける。
データとコードはhttps://github.com/lorebianchi98/FG-OVD.comで入手できる。
関連論文リスト
- Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey [10.665235711722076]
オブジェクト指向物体検出は、リモートセンシングにおいて最も基本的で困難なタスクの1つである。
近年,ディープラーニング技術を用いたオブジェクト指向物体検出の進歩が目覚ましい。
論文 参考訳(メタデータ) (2023-02-21T06:31:53Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。