論文の概要: Open-Set Recognition in the Age of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.16528v2
- Date: Fri, 19 Jul 2024 14:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 23:37:22.493661
- Title: Open-Set Recognition in the Age of Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるオープンセット認識
- Authors: Dimity Miller, Niko Sünderhauf, Alex Kenna, Keita Mason,
- Abstract要約: オープン語彙認識のための視覚言語モデル(VLM)が,インターネット規模のデータセットで訓練されているため,本質的にオープンセットモデルであるかどうかを検討する。
有限クエリセットを介してクローズドセットの仮定を導入し、オープンセット条件に対して脆弱になる。
より多くのクラスを含むクエリセットのサイズを中立的に増やすことは、この問題を軽減するのではなく、タスクパフォーマンスの低下とオープンセットのパフォーマンスの低下を引き起こすことを示す。
- 参考スコア(独自算出の注目度): 9.306738687897889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Are vision-language models (VLMs) for open-vocabulary perception inherently open-set models because they are trained on internet-scale datasets? We answer this question with a clear no - VLMs introduce closed-set assumptions via their finite query set, making them vulnerable to open-set conditions. We systematically evaluate VLMs for open-set recognition and find they frequently misclassify objects not contained in their query set, leading to alarmingly low precision when tuned for high recall and vice versa. We show that naively increasing the size of the query set to contain more and more classes does not mitigate this problem, but instead causes diminishing task performance and open-set performance. We establish a revised definition of the open-set problem for the age of VLMs, define a new benchmark and evaluation protocol to facilitate standardised evaluation and research in this important area, and evaluate promising baseline approaches based on predictive uncertainty and dedicated negative embeddings on a range of open-vocabulary VLM classifiers and object detectors.
- Abstract(参考訳): オープン語彙認識のための視覚言語モデル(VLM)は、本質的にはオープンセットモデルである。
VLMは、その有限クエリセットを介してクローズドセットの仮定を導入し、オープンセット条件に対して脆弱である。
オープンセット認識のためのVLMを体系的に評価し、クエリセットに含まれていないオブジェクトをしばしば誤分類し、高いリコールのために調整された場合、その逆も警告的に低い精度に繋がることを示した。
より多くのクラスを含むクエリセットのサイズを中立的に増やすことは、この問題を軽減するのではなく、タスクパフォーマンスの低下とオープンセットのパフォーマンスの低下を引き起こすことを示す。
我々は,VLM 時代におけるオープンセット問題の再定義を確立し,この重要な領域における標準化された評価と研究を容易にするための新しいベンチマークと評価プロトコルを定義し,オープンボキャブラリな VLM 分類器とオブジェクト検出器を対象とする予測的不確実性および専用負の埋め込みに基づく有望なベースラインアプローチを評価する。
関連論文リスト
- Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - How to Evaluate the Generalization of Detection? A Benchmark for
Comprehensive Open-Vocabulary Detection [25.506346503624894]
我々は,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識の評価を導入する。
データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。
論文 参考訳(メタデータ) (2023-08-25T04:54:32Z) - Multimodal Prompt Retrieval for Generative Visual Question Answering [9.973591610073006]
本稿では、検索したプロンプトとマルチモーダル機能を統合して、自由テキストで回答を生成するマルチモーダルプロンプト検索(MPR)によって強化された新しい生成モデルを提案する。
医療用VQAタスクの実験では、MPRはドメイン適応の設定において、最大30%の精度で検索不能なタスクを上回ります。
論文 参考訳(メタデータ) (2023-06-30T14:06:13Z) - Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning [10.57079240576682]
本稿では,大規模未ラベルのオープンセットが利用可能であるという前提の下で,オープンセットの自己改善型学習問題を新たに導入する。
問題設定では、オープンセットとターゲットデータセットの分布ミスマッチを考慮することが重要である。
実験により,SimCoreは表現学習性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-03-20T13:38:29Z) - OpenAUC: Towards AUC-Oriented Open-Set Recognition [151.5072746015253]
従来の機械学習は、トレーニングとテストセットが同じラベル空間を共有するという密接な前提に従っている。
Open-Set Recognition (OSR) は、クローズセットサンプルとオープンセットサンプルの両方で正確な予測を行うことを目的としている。
これらの問題を解決するために,OpenAUCという新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2022-10-22T08:54:15Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。