Fugu-MT 論文翻訳(概要): NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

論文の概要: NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

arxiv url: http://arxiv.org/abs/2410.14669v1
Date: Fri, 18 Oct 2024 17:58:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.60776
Title: NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
Title（参考訳）: NaturalBench: 自然対向サンプルのビジョンランゲージモデルの評価
Authors: Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan,
Abstract要約: 視覚自動モデル(VLM)は、人間が容易に答えられるような自然なイメージや疑問に苦戦している。我々は,1万個の人間検証VQAサンプルを用いて,VLMを確実に評価するための新しいベンチマークであるNaturalBenchを提案する。 LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。
参考スコア（独自算出の注目度）: 79.82029431745612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) have made significant progress in recent visual-question-answering (VQA) benchmarks that evaluate complex visio-linguistic reasoning. However, are these models truly effective? In this work, we show that VLMs still struggle with natural images and questions that humans can easily answer, which we term natural adversarial samples. We also find it surprisingly easy to generate these VQA samples from natural image-text corpora using off-the-shelf models like CLIP and ChatGPT. We propose a semi-automated approach to collect a new benchmark, NaturalBench, for reliably evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a $\textbf{vision-centric}$ design by pairing each question with two images that yield different answers, preventing blind solutions from answering without using the images. This makes NaturalBench more challenging than previous benchmarks that can be solved with commonsense priors. We evaluate 53 state-of-the-art VLMs on NaturalBench, showing that models like LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is hard from two angles: (1) Compositionality: Solving NaturalBench requires diverse visio-linguistic skills, including understanding attribute bindings, object relationships, and advanced reasoning like logic and counting. To this end, unlike prior work that uses a single tag per sample, we tag each NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2) Biases: NaturalBench exposes severe biases in VLMs, as models often choose the same answer regardless of the image. Lastly, we apply our benchmark curation method to diverse data sources, including long captions (over 100 words) and non-English languages like Chinese and Hindi, highlighting its potential for dynamic evaluations of VLMs.
Abstract（参考訳）: 視覚言語モデル (VLM) は、複雑な視覚言語推論を評価する最近の視覚質問答え(VQA)ベンチマークにおいて大きな進歩を遂げている。しかし、これらのモデルは本当に効果的か? 本研究は,VLMが自然のイメージや疑問に苦しむ上で,人間が容易に答えられることを示し,これを自然の敵対的サンプルと呼ぶ。また、CLIPやChatGPTといった市販のモデルを使って、自然画像テキストコーパスからこれらのVQAサンプルを生成することも驚くほど簡単です。そこで我々は,新しいベンチマークであるNaturalBenchを半自動で収集し,VLMを1万個の人間認証VQAサンプルで確実に評価する手法を提案する。重要なことに、我々は、各質問に異なる回答をもたらす2つのイメージをペアにすることで、$\textbf{vision-centric}$デザインを採用する。これにより、NaturalBenchは、Commonsenseで解決できる以前のベンチマークよりも困難になる。 LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。構成性: NaturalBenchを解くには, 属性バインディングの理解, オブジェクト関係, 論理や数え上げのような高度な推論など, 多様な視覚言語スキルが必要である。この目的のために、サンプル毎に1つのタグを使用する以前の作業とは異なり、各NaturalBenchサンプルに1から8のスキルタグをタグ付けして、きめ細かい評価を行う。 2) バイアス: NaturalBench は VLM の重大なバイアスを露呈する。最後に、このベンチマークキュレーション手法を、長文字幕(100語以上)や中国語やヒンディー語のような非英語言語を含む多様なデータソースに適用し、VLMの動的評価の可能性を強調した。

関連論文リスト

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。 TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文参考訳（メタデータ） (2025-07-10T17:59:58Z)
Task-aligned prompting improves zero-shot detection of AI-generated images by Vision-Language Models [2.005104318774207]
本研究では,AI生成画像のゼロショット検出における事前学習型視覚言語モデルの使用について検討する。タスクアライメントの促進により、より焦点を絞った推論が可能となり、微調整なしで性能が大幅に向上することを示す。以上の結果から,タスクアライメントは,VLMの潜在能力の向上と,より集中的な推論を促すことが示唆された。
論文参考訳（メタデータ） (2025-05-20T22:44:04Z)
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。 Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文参考訳（メタデータ） (2025-02-20T01:48:13Z)
Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T17:54:29Z)
TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文参考訳（メタデータ） (2024-10-10T09:28:36Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions [14.459170441851706]
LVLM(Large Vision-Language Models)は、視覚知覚と言語解釈において顕著な進歩を遂げている。 LVLMはいまだに幻覚の問題に悩まされており、視覚的またはテキスト的入力に不正確で不誠実なコンテンツを生成する。 MMEやPOPEといった従来のベンチマークは、答え可能な質問を用いてLVLMの幻覚を評価する。本稿では,LVLMの信頼性を評価するためのベンチマークであるTUBenchを提案する。
論文参考訳（メタデータ） (2024-10-05T10:23:14Z)
Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文参考訳（メタデータ） (2024-03-29T17:59:34Z)
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文参考訳（メタデータ） (2024-02-11T06:44:11Z)
Small Language Model Meets with Reinforced Vision Vocabulary [23.5530783019396]
Vary-toyは、Qwen-1.8Bと共に、ベースとなる大きな言語モデルである。 Vary-toyでは、改良された視覚語彙を導入し、モデルがVaryのすべての特徴を持つだけでなく、より一般性も得るようにした。実験では、Vary-toyはDocVQAで65.6%、ChartQAで59.1%、RefCOCOで88.1%、MMVetで29%を達成できる。
論文参考訳（メタデータ） (2024-01-23T05:55:26Z)
Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination [40.83905569501714]
我々は、単一の視覚言語モデル(VLM)を利用して、HTMLを用いて質問の構造化表現を生成し、次にHTMLを画像として描画し、最後に同じVLMを使用して質問と画像の両方を用いて質問に答える。我々は,3つの数学タスクと9つの汎用推論タスクに対して,最新式 (LLAVA-1.5 と GEMINI PRO) VLM を用いて評価を行った。
論文参考訳（メタデータ） (2024-01-16T00:46:29Z)
Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge [155.81786738036578]
Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。 GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
論文参考訳（メタデータ） (2023-05-30T08:34:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。