論文の概要: NegVQA: Can Vision Language Models Understand Negation?
- arxiv url: http://arxiv.org/abs/2505.22946v1
- Date: Wed, 28 May 2025 23:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.590298
- Title: NegVQA: Can Vision Language Models Understand Negation?
- Title(参考訳): NegVQA: ビジョン言語モデルは否定に耐えられるか?
- Authors: Yuhui Zhang, Yuchang Su, Yiming Liu, Serena Yeung-Levy,
- Abstract要約: NegVQA(ネグVQA)は、様々な否定シナリオと画像探索分布をカバーする7,379の2項目からなる視覚的質問応答(VQA)ベンチマークである。
我々は,既存のVQAデータセットから質問の否定バージョンを生成するために,大規模な言語モデルを活用してNegVQAを構築する。
我々は、7つのモデルファミリーにわたる20の最先端のビジョン言語モデルを評価し、これらのモデルが否定にかなり苦労していることを見出した。
- 参考スコア(独自算出の注目度): 10.58857445465026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Negation is a fundamental linguistic phenomenon that can entirely reverse the meaning of a sentence. As vision language models (VLMs) continue to advance and are deployed in high-stakes applications, assessing their ability to comprehend negation becomes essential. To address this, we introduce NegVQA, a visual question answering (VQA) benchmark consisting of 7,379 two-choice questions covering diverse negation scenarios and image-question distributions. We construct NegVQA by leveraging large language models to generate negated versions of questions from existing VQA datasets. Evaluating 20 state-of-the-art VLMs across seven model families, we find that these models struggle significantly with negation, exhibiting a substantial performance drop compared to their responses to the original questions. Furthermore, we uncover a U-shaped scaling trend, where increasing model size initially degrades performance on NegVQA before leading to improvements. Our benchmark reveals critical gaps in VLMs' negation understanding and offers insights into future VLM development. Project page available at https://yuhui-zh15.github.io/NegVQA/.
- Abstract(参考訳): 否定は、文の意味を完全に逆転できる基本的な言語現象である。
視覚言語モデル (VLM) が進歩し続け、高度なアプリケーションにデプロイされるにつれて、否定を理解する能力を評価することが不可欠である。
これを解決するために,多様な否定シナリオと画像探索分布をカバーする7,379の2種類の質問からなる視覚的質問応答(VQA)ベンチマークであるNegVQAを紹介する。
我々は,既存のVQAデータセットから質問の否定バージョンを生成するために,大規模な言語モデルを活用してNegVQAを構築する。
7つのモデルファミリーにまたがる20の最先端のVLMを評価すると、これらのモデルが否定に苦戦し、元の質問に対する反応に比べてかなりの性能低下を示します。
さらに,モデルサイズの増加がNegVQAの性能を低下させ,改善につながるという,U字型スケーリングの傾向を明らかにする。
本ベンチマークでは,VLMの否定的理解における重要なギャップを明らかにし,今後のVLM開発に対する洞察を提供する。
プロジェクトページはhttps://yuhui-zh15.github.io/NegVQA/。
関連論文リスト
- Negation: A Pink Elephant in the Large Language Models' Room? [2.8078480738404]
否定は文の意味を決定する鍵であり、論理的推論には不可欠である。
その重要性にもかかわらず、否定は大きな言語モデル(LLM)に重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-03-28T13:04:41Z) - Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - NeIn: Telling What You Don't Want [6.666707176043472]
本稿では,命令ベースの画像編集における否定を研究するための,最初の大規模データセットNegative Instruction(NeIn)を提案する。
NeInは366,957個のクインタプレット、すなわちソースイメージ、オリジナルキャプション、選択されたオブジェクト、否定文、ターゲットイメージを含み、トレーニング用の342,775個のクエリと、ベンチマーク画像編集方法のための24,182個のクエリを含む。
論文 参考訳(メタデータ) (2024-09-09T04:54:34Z) - What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models [22.0839948292609]
我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。
このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。
このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
論文 参考訳(メタデータ) (2023-10-10T13:45:59Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models [67.8024390595066]
NOPE(Negative Object Presence Evaluation)は、視覚言語(VL)モデルにおける物体幻覚を評価するために設計された新しいベンチマークである。
視覚的問題における物体の非存在を識別するために,10種類の最先端VLモデルの性能を広範囲に検討する。
論文 参考訳(メタデータ) (2023-10-09T01:52:27Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - CONDAQA: A Contrastive Reading Comprehension Dataset for Reasoning about
Negation [21.56001677478673]
本稿では,段落における否定文の意味に関する推論を必要とする,最初の英語読解データセットを提案する。
CONDAQAは1,182組の質問応答ペアと200以上のユニークな否定的手がかりを備える。
CONDAQAの最高のパフォーマンスモデル(UnifiedQA-v2-3b)は、我々の一貫性基準で42%しか達成できません。
論文 参考訳(メタデータ) (2022-11-01T06:10:26Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Reducing Language Biases in Visual Question Answering with
Visually-Grounded Question Encoder [12.56413718364189]
VQAのための新しいモデルに依存しない質問エンコーダVGQE(Visually-Grounded Question)を提案する。
VGQEは、質問をエンコードしながら、視覚と言語の両方のモダリティを等しく利用する。
VGQEが最近の3つのVQAモデルに与える影響を実証し、最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T05:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。