論文の概要: NegVQA: Can Vision Language Models Understand Negation?
- arxiv url: http://arxiv.org/abs/2505.22946v1
- Date: Wed, 28 May 2025 23:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.590298
- Title: NegVQA: Can Vision Language Models Understand Negation?
- Title(参考訳): NegVQA: ビジョン言語モデルは否定に耐えられるか?
- Authors: Yuhui Zhang, Yuchang Su, Yiming Liu, Serena Yeung-Levy,
- Abstract要約: NegVQA(ネグVQA)は、様々な否定シナリオと画像探索分布をカバーする7,379の2項目からなる視覚的質問応答(VQA)ベンチマークである。
我々は,既存のVQAデータセットから質問の否定バージョンを生成するために,大規模な言語モデルを活用してNegVQAを構築する。
我々は、7つのモデルファミリーにわたる20の最先端のビジョン言語モデルを評価し、これらのモデルが否定にかなり苦労していることを見出した。
- 参考スコア(独自算出の注目度): 10.58857445465026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Negation is a fundamental linguistic phenomenon that can entirely reverse the meaning of a sentence. As vision language models (VLMs) continue to advance and are deployed in high-stakes applications, assessing their ability to comprehend negation becomes essential. To address this, we introduce NegVQA, a visual question answering (VQA) benchmark consisting of 7,379 two-choice questions covering diverse negation scenarios and image-question distributions. We construct NegVQA by leveraging large language models to generate negated versions of questions from existing VQA datasets. Evaluating 20 state-of-the-art VLMs across seven model families, we find that these models struggle significantly with negation, exhibiting a substantial performance drop compared to their responses to the original questions. Furthermore, we uncover a U-shaped scaling trend, where increasing model size initially degrades performance on NegVQA before leading to improvements. Our benchmark reveals critical gaps in VLMs' negation understanding and offers insights into future VLM development. Project page available at https://yuhui-zh15.github.io/NegVQA/.
- Abstract(参考訳): 否定は、文の意味を完全に逆転できる基本的な言語現象である。
視覚言語モデル (VLM) が進歩し続け、高度なアプリケーションにデプロイされるにつれて、否定を理解する能力を評価することが不可欠である。
これを解決するために,多様な否定シナリオと画像探索分布をカバーする7,379の2種類の質問からなる視覚的質問応答(VQA)ベンチマークであるNegVQAを紹介する。
我々は,既存のVQAデータセットから質問の否定バージョンを生成するために,大規模な言語モデルを活用してNegVQAを構築する。
7つのモデルファミリーにまたがる20の最先端のVLMを評価すると、これらのモデルが否定に苦戦し、元の質問に対する反応に比べてかなりの性能低下を示します。
さらに,モデルサイズの増加がNegVQAの性能を低下させ,改善につながるという,U字型スケーリングの傾向を明らかにする。
本ベンチマークでは,VLMの否定的理解における重要なギャップを明らかにし,今後のVLM開発に対する洞察を提供する。
プロジェクトページはhttps://yuhui-zh15.github.io/NegVQA/。
関連論文リスト
- Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - NeIn: Telling What You Don't Want [6.666707176043472]
本稿では,命令ベースの画像編集における否定を研究するための,最初の大規模データセットNegative Instruction(NeIn)を提案する。
NeInは366,957個のクインタプレット、すなわちソースイメージ、オリジナルキャプション、選択されたオブジェクト、否定文、ターゲットイメージを含み、トレーニング用の342,775個のクエリと、ベンチマーク画像編集方法のための24,182個のクエリを含む。
論文 参考訳(メタデータ) (2024-09-09T04:54:34Z) - What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models [22.0839948292609]
我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。
このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。
このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
論文 参考訳(メタデータ) (2023-10-10T13:45:59Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models [67.8024390595066]
NOPE(Negative Object Presence Evaluation)は、視覚言語(VL)モデルにおける物体幻覚を評価するために設計された新しいベンチマークである。
視覚的問題における物体の非存在を識別するために,10種類の最先端VLモデルの性能を広範囲に検討する。
論文 参考訳(メタデータ) (2023-10-09T01:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。