論文の概要: OmniLabel: A Challenging Benchmark for Language-Based Object Detection
- arxiv url: http://arxiv.org/abs/2304.11463v2
- Date: Mon, 14 Aug 2023 21:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 16:48:08.592188
- Title: OmniLabel: A Challenging Benchmark for Language-Based Object Detection
- Title(参考訳): OmniLabel: 言語ベースのオブジェクト検出のためのベンチマーク
- Authors: Samuel Schulter, Vijay Kumar B G, Yumin Suh, Konstantinos M. Dafnis,
Zhixing Zhang, Shiyu Zhao, Dimitris Metaxas
- Abstract要約: 本稿では,言語に基づくオブジェクト検出のための新しいタスク定義,データセット,評価指標を提案する。
25K以上のイメージに28K以上のユニークなオブジェクト記述があるため、OmniLabelは挑戦的なベンチマークを提供する。
提案した評価は,大口径ラベル空間を処理し,修正された平均精度測定値を用いて性能を判定する。
- 参考スコア(独自算出の注目度): 20.47465444454012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-based object detection is a promising direction towards building a
natural interface to describe objects in images that goes far beyond plain
category names. While recent methods show great progress in that direction,
proper evaluation is lacking. With OmniLabel, we propose a novel task
definition, dataset, and evaluation metric. The task subsumes standard- and
open-vocabulary detection as well as referring expressions. With more than 28K
unique object descriptions on over 25K images, OmniLabel provides a challenging
benchmark with diverse and complex object descriptions in a naturally
open-vocabulary setting. Moreover, a key differentiation to existing benchmarks
is that our object descriptions can refer to one, multiple or even no object,
hence, providing negative examples in free-form text. The proposed evaluation
handles the large label space and judges performance via a modified average
precision metric, which we validate by evaluating strong language-based
baselines. OmniLabel indeed provides a challenging test bed for future research
on language-based detection.
- Abstract(参考訳): 言語に基づくオブジェクト検出は、通常のカテゴリ名を超えて、画像内のオブジェクトを記述する自然なインターフェースを構築するための有望な方向である。
近年の手法はその方向への大きな進歩を示しているが、適切な評価は不十分である。
OmniLabelでは,新しいタスク定義,データセット,評価指標を提案する。
このタスクは、標準およびオープン語彙の検出と参照式を仮定する。
25K以上のイメージに28K以上のユニークなオブジェクト記述があるOmniLabelは、自然にオープンな語彙設定で、多種多様な複雑なオブジェクト記述を伴う挑戦的なベンチマークを提供する。
さらに、既存のベンチマークとの主な違いは、オブジェクト記述が1つ、複数、あるいは全くオブジェクトを参照できるため、自由形式のテキストで否定的な例を提供するということです。
提案手法では,大きなラベル空間を処理し,強固な言語ベースラインの評価により検証する修正平均精度指標を用いて性能を判断する。
OmniLabelは言語ベースの検出に関する将来の研究に挑戦的なテストベッドを提供する。
関連論文リスト
- Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文 参考訳(メタデータ) (2023-11-29T10:40:52Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Omni-DETR: Omni-Supervised Object Detection with Transformers [165.4190908259015]
我々は、ラベルなし、完全ラベル付き、弱ラベル付きアノテーションを使用できるOmni教師付きオブジェクト検出の問題を考察する。
この統一アーキテクチャの下では、異なる種類の弱いラベルを利用して正確な擬似ラベルを生成することができる。
弱いアノテーションは検出性能を向上させるのに役立ち、それらの混合はアノテーションのコストと精度のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2022-03-30T06:36:09Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。