論文の概要: NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
- arxiv url: http://arxiv.org/abs/2410.14669v1
- Date: Fri, 18 Oct 2024 17:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:54.183295
- Title: NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
- Title(参考訳): NaturalBench: 自然対向サンプルのビジョンランゲージモデルの評価
- Authors: Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan,
- Abstract要約: 視覚自動モデル(VLM)は、人間が容易に答えられるような自然なイメージや疑問に苦戦している。
我々は,1万個の人間検証VQAサンプルを用いて,VLMを確実に評価するための新しいベンチマークであるNaturalBenchを提案する。
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。
- 参考スコア(独自算出の注目度): 79.82029431745612
- License:
- Abstract: Vision-language models (VLMs) have made significant progress in recent visual-question-answering (VQA) benchmarks that evaluate complex visio-linguistic reasoning. However, are these models truly effective? In this work, we show that VLMs still struggle with natural images and questions that humans can easily answer, which we term natural adversarial samples. We also find it surprisingly easy to generate these VQA samples from natural image-text corpora using off-the-shelf models like CLIP and ChatGPT. We propose a semi-automated approach to collect a new benchmark, NaturalBench, for reliably evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a $\textbf{vision-centric}$ design by pairing each question with two images that yield different answers, preventing blind solutions from answering without using the images. This makes NaturalBench more challenging than previous benchmarks that can be solved with commonsense priors. We evaluate 53 state-of-the-art VLMs on NaturalBench, showing that models like LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is hard from two angles: (1) Compositionality: Solving NaturalBench requires diverse visio-linguistic skills, including understanding attribute bindings, object relationships, and advanced reasoning like logic and counting. To this end, unlike prior work that uses a single tag per sample, we tag each NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2) Biases: NaturalBench exposes severe biases in VLMs, as models often choose the same answer regardless of the image. Lastly, we apply our benchmark curation method to diverse data sources, including long captions (over 100 words) and non-English languages like Chinese and Hindi, highlighting its potential for dynamic evaluations of VLMs.
- Abstract(参考訳): 視覚言語モデル (VLM) は、複雑な視覚言語推論を評価する最近の視覚質問答え(VQA)ベンチマークにおいて大きな進歩を遂げている。
しかし、これらのモデルは本当に効果的か?
本研究は,VLMが自然のイメージや疑問に苦しむ上で,人間が容易に答えられることを示し,これを自然の敵対的サンプルと呼ぶ。
また、CLIPやChatGPTといった市販のモデルを使って、自然画像テキストコーパスからこれらのVQAサンプルを生成することも驚くほど簡単です。
そこで我々は,新しいベンチマークであるNaturalBenchを半自動で収集し,VLMを1万個の人間認証VQAサンプルで確実に評価する手法を提案する。
重要なことに、我々は、各質問に異なる回答をもたらす2つのイメージをペアにすることで、$\textbf{vision-centric}$デザインを採用する。
これにより、NaturalBenchは、Commonsenseで解決できる以前のベンチマークよりも困難になる。
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。
構成性: NaturalBenchを解くには, 属性バインディングの理解, オブジェクト関係, 論理や数え上げのような高度な推論など, 多様な視覚言語スキルが必要である。
この目的のために、サンプル毎に1つのタグを使用する以前の作業とは異なり、各NaturalBenchサンプルに1から8のスキルタグをタグ付けして、きめ細かい評価を行う。
2) バイアス: NaturalBench は VLM の重大なバイアスを露呈する。
最後に、このベンチマークキュレーション手法を、長文字幕(100語以上)や中国語やヒンディー語のような非英語言語を含む多様なデータソースに適用し、VLMの動的評価の可能性を強調した。
関連論文リスト
- LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Small Language Model Meets with Reinforced Vision Vocabulary [23.5530783019396]
Vary-toyは、Qwen-1.8Bと共に、ベースとなる大きな言語モデルである。
Vary-toyでは、改良された視覚語彙を導入し、モデルがVaryのすべての特徴を持つだけでなく、より一般性も得るようにした。
実験では、Vary-toyはDocVQAで65.6%、ChartQAで59.1%、RefCOCOで88.1%、MMVetで29%を達成できる。
論文 参考訳(メタデータ) (2024-01-23T05:55:26Z) - Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using
Self-Imagination [40.83905569501714]
我々は、単一の視覚言語モデル(VLM)を利用して、HTMLを用いて質問の構造化表現を生成し、次にHTMLを画像として描画し、最後に同じVLMを使用して質問と画像の両方を用いて質問に答える。
我々は,3つの数学タスクと9つの汎用推論タスクに対して,最新式 (LLAVA-1.5 と GEMINI PRO) VLM を用いて評価を行った。
論文 参考訳(メタデータ) (2024-01-16T00:46:29Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Generate then Select: Open-ended Visual Question Answering Guided by
World Knowledge [155.81786738036578]
Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。
GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。
我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
論文 参考訳(メタデータ) (2023-05-30T08:34:13Z) - LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular
Supervision for Visual Question Answering [4.602329567377897]
本稿では,視覚的質問応答のための透明なニューラルシンボリック推論フレームワークを提案する。
人間のようにステップバイステップで解決し、各ステップで人間の読みやすい正当性を提供する。
GQAデータセットを用いた実験により、LRTAは最先端モデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-11-21T06:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。