論文の概要: The devil is in the fine-grained details: Evaluating open-vocabulary
object detectors for fine-grained understanding
- arxiv url: http://arxiv.org/abs/2311.17518v1
- Date: Wed, 29 Nov 2023 10:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:40:34.070708
- Title: The devil is in the fine-grained details: Evaluating open-vocabulary
object detectors for fine-grained understanding
- Title(参考訳): 悪魔は細かな詳細の中にいる: 細かな理解のためにオープン語彙オブジェクト検出器を評価する
- Authors: Lorenzo Bianchi, Fabio Carrara, Nicola Messina, Claudio Gennaro and
Fabrizio Falchi
- Abstract要約: 本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
- 参考スコア(独自算出の注目度): 9.063831016543437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large vision-language models enabled visual object
detection in open-vocabulary scenarios, where object classes are defined in
free-text formats during inference. In this paper, we aim to probe the
state-of-the-art methods for open-vocabulary object detection to determine to
what extent they understand fine-grained properties of objects and their parts.
To this end, we introduce an evaluation protocol based on dynamic vocabulary
generation to test whether models detect, discern, and assign the correct
fine-grained description to objects in the presence of hard-negative classes.
We contribute with a benchmark suite of increasing difficulty and probing
different properties like color, pattern, and material. We further enhance our
investigation by evaluating several state-of-the-art open-vocabulary object
detectors using the proposed protocol and find that most existing solutions,
which shine in standard open-vocabulary benchmarks, struggle to accurately
capture and distinguish finer object details. We conclude the paper by
highlighting the limitations of current methodologies and exploring promising
research directions to overcome the discovered drawbacks. Data and code are
available at https://github.com/lorebianchi98/FG-OVD.
- Abstract(参考訳): 大規模視覚言語モデルの最近の進歩により、オープン語彙シナリオにおける視覚的オブジェクト検出が可能になった。
本稿では,オープンボキャブラリー物体検出の最先端手法を探究し,物体とその部分の細粒度特性をどの程度理解しているかを探究する。
この目的のために,動的語彙生成に基づく評価プロトコルを導入し,モデルがハード陰性クラスの存在下で,正しい細粒度記述をオブジェクトに検出・識別・割り当てするかどうかを検証する。
色やパターン、素材といったさまざまな特性を調査し、難易度を増すベンチマークスイートにコントリビュートしています。
我々は,提案プロトコルを用いて,最先端のオープンボキャブラリ物体検出器の評価を行い,標準のオープンボキャブラリベンチマークで輝いている既存のソリューションのほとんどが,より詳細なオブジェクト詳細の把握と識別に苦労していることを見出した。
本稿は,現在の方法論の限界を強調し,問題点を克服するための有望な研究方向を検討することで結論づける。
データとコードはhttps://github.com/lorebianchi98/FG-OVD.comで入手できる。
関連論文リスト
- LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated
Student-Teacher Learning [14.35268391981271]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Class-agnostic Object Detection [16.97782147401037]
本稿では,オブジェクトのクラスに関係なくオブジェクトを検出することに焦点を当てた新しい問題として,クラスに依存しないオブジェクト検出を提案する。
具体的には、イメージ内のすべてのオブジェクトのバウンディングボックスを予測することであり、オブジェクトクラスではない。
本稿では,この領域における今後の研究を進めるために,クラス非依存検出器のベンチマークのためのトレーニングおよび評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-28T19:22:38Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。