論文の概要: How to Evaluate the Generalization of Detection? A Benchmark for
Comprehensive Open-Vocabulary Detection
- arxiv url: http://arxiv.org/abs/2308.13177v1
- Date: Fri, 25 Aug 2023 04:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 15:13:23.148642
- Title: How to Evaluate the Generalization of Detection? A Benchmark for
Comprehensive Open-Vocabulary Detection
- Title(参考訳): 検出の一般化をどう評価するか?
包括的開語彙検出のためのベンチマーク
- Authors: Yiyang Yao, Peng Liu, Tiancheng Zhao, Qianqian Zhang, Jiajia Liao,
Chunxin Fang, Kyusong Lee, Qing Wang
- Abstract要約: 我々は,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識の評価を導入する。
データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。
- 参考スコア(独自算出の注目度): 25.506346503624894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection (OD) in computer vision has made significant progress in
recent years, transitioning from closed-set labels to open-vocabulary detection
(OVD) based on large-scale vision-language pre-training (VLP). However, current
evaluation methods and datasets are limited to testing generalization over
object types and referral expressions, which do not provide a systematic,
fine-grained, and accurate benchmark of OVD models' abilities. In this paper,
we propose a new benchmark named OVDEval, which includes 9 sub-tasks and
introduces evaluations on commonsense knowledge, attribute understanding,
position understanding, object relation comprehension, and more. The dataset is
meticulously created to provide hard negatives that challenge models' true
understanding of visual and linguistic input. Additionally, we identify a
problem with the popular Average Precision (AP) metric when benchmarking models
on these fine-grained label datasets and propose a new metric called
Non-Maximum Suppression Average Precision (NMS-AP) to address this issue.
Extensive experimental results show that existing top OVD models all fail on
the new tasks except for simple object types, demonstrating the value of the
proposed dataset in pinpointing the weakness of current OVD models and guiding
future research. Furthermore, the proposed NMS-AP metric is verified by
experiments to provide a much more truthful evaluation of OVD models, whereas
traditional AP metrics yield deceptive results. Data is available at
\url{https://github.com/om-ai-lab/OVDEval}
- Abstract(参考訳): 近年,コンピュータビジョンにおける物体検出(OD)は,大規模視覚言語事前学習(VLP)に基づく閉集合ラベルからオープン語彙検出(OVD)へ移行し,大きな進歩を遂げている。
しかしながら、現在の評価手法とデータセットは、OVDモデルの能力の体系的できめ細かな正確なベンチマークを提供しないオブジェクトタイプや参照式に対する一般化のテストに限られている。
本稿では,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識,属性理解,位置理解,オブジェクト関係理解などについて評価する。
データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。
さらに、これらの細粒度ラベルデータセット上でモデルをベンチマークする際の一般的な平均精度(AP)メトリクスの問題を特定し、この問題に対処するためにNon-Maximum Suppression Average Precision(NMS-AP)と呼ばれる新しい指標を提案する。
大規模な実験結果から,既存の上位OVDモデルは,単純なオブジェクト型を除いてすべて新しいタスクで失敗し,現在のOVDモデルの弱点を把握し,今後の研究を導く上で,提案するデータセットの価値が示された。
さらに、提案したNMS-APメトリックは実験によって検証され、OVDモデルのより真に評価される。
データは \url{https://github.com/om-ai-lab/ovdeval} で入手できる。
関連論文リスト
- Open-set object detection: towards unified problem formulation and benchmarking [2.4374097382908477]
統合VOC-COCO評価と,新しい評価指標の他に,明確な階層的オブジェクト定義を提供するOpenImagesRoadベンチマークの2つのベンチマークを紹介する。
提案したベンチマークで最先端の手法を広範囲に評価する。
この研究は、明確な問題定義を提供し、一貫した評価を保証し、OSOD戦略の有効性に関する新たな結論を導き出す。
論文 参考訳(メタデータ) (2024-11-08T13:40:01Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Open-Set Recognition in the Age of Vision-Language Models [9.306738687897889]
オープン語彙認識のための視覚言語モデル(VLM)が,インターネット規模のデータセットで訓練されているため,本質的にオープンセットモデルであるかどうかを検討する。
有限クエリセットを介してクローズドセットの仮定を導入し、オープンセット条件に対して脆弱になる。
より多くのクラスを含むクエリセットのサイズを中立的に増やすことは、この問題を軽減するのではなく、タスクパフォーマンスの低下とオープンセットのパフォーマンスの低下を引き起こすことを示す。
論文 参考訳(メタデータ) (2024-03-25T08:14:22Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Interpretable Out-Of-Distribution Detection Using Pattern Identification [0.0]
データベースプログラムのアウト・オブ・ディストリビューション(OoD)検出は最重要課題である。
文献における一般的なアプローチは、イン・オブ・ディストリビューション(in-distriion、IoD)とOoDバリデーション・サンプルを必要とする検出器を訓練する傾向がある。
我々は、より解釈可能で堅牢なOoD検出器を構築するために、説明可能なAI、すなわちPartialulパターン識別アルゴリズムから既存の研究を活用することを提案する。
論文 参考訳(メタデータ) (2023-01-24T15:35:54Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization [73.14053674836838]
Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
本稿では,提案するマイニングと予測等化を備えた新しいOVDフレームワークMEDetを提案する。
論文 参考訳(メタデータ) (2022-06-22T14:30:41Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。