Fugu-MT 論文翻訳(概要): Vision-Language Models Do Not Understand Negation

論文の概要: Vision-Language Models Do Not Understand Negation

arxiv url: http://arxiv.org/abs/2501.09425v1
Date: Thu, 16 Jan 2025 09:55:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-17 16:36:32.307706
Title: Vision-Language Models Do Not Understand Negation
Title（参考訳）: ビジョンランゲージモデルでは否定を理解できない
Authors: Kumail Alhamoud, Shaden Alshammari, Yonglong Tian, Guohao Li, Philip Torr, Yoon Kim, Marzyeh Ghassemi,
Abstract要約: NegBenchは、イメージ、ビデオ、医療データセットにまたがる18のタスクのバリエーションと79kのサンプルに対する否定的理解を評価するために設計されたベンチマークである。提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションによる複数質問に対する精度が40%向上することを示す。
参考スコア（独自算出の注目度）: 50.27667000027403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many practical vision-language applications require models that understand negation, e.g., when using natural language to retrieve images which contain certain objects but not others. Despite advancements in vision-language models (VLMs) through large-scale training, their ability to comprehend negation remains underexplored. This study addresses the question: how well do current VLMs understand negation? We introduce NegBench, a new benchmark designed to evaluate negation understanding across 18 task variations and 79k examples spanning image, video, and medical datasets. The benchmark consists of two core tasks designed to evaluate negation understanding in diverse multimodal settings: Retrieval with Negation and Multiple Choice Questions with Negated Captions. Our evaluation reveals that modern VLMs struggle significantly with negation, often performing at chance level. To address these shortcomings, we explore a data-centric approach wherein we finetune CLIP models on large-scale synthetic datasets containing millions of negated captions. We show that this approach can result in a 10% increase in recall on negated queries and a 40% boost in accuracy on multiple-choice questions with negated captions.
Abstract（参考訳）: 多くの実用的な視覚言語アプリケーションは、自然言語を使って特定のオブジェクトを含むが他のオブジェクトではない画像を取得する際に、否定を理解するモデルを必要とする。大規模訓練による視覚言語モデル(VLM)の進歩にもかかわらず、否定を理解する能力は未解明のままである。この研究は、現在のVLMが否定をどの程度理解しているかという疑問に対処する。我々は、画像、ビデオ、医療データセットにまたがる18のタスクのバリエーションと79kのサンプルに対する否定的理解を評価するために設計された新しいベンチマークであるNegBenchを紹介した。このベンチマークは、さまざまなマルチモーダル設定での否定的理解を評価するために設計された2つのコアタスクで構成されている。我々の評価によると、現代のVLMは否定にかなり苦労しており、しばしば偶然に性能が向上している。これらの欠点に対処するために、数百万の否定的なキャプションを含む大規模合成データセット上でCLIPモデルを微調整する、データ中心のアプローチを検討する。提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションによる複数質問に対する精度が40%向上することを示す。

関連論文リスト

NegVQA: Can Vision Language Models Understand Negation? [10.58857445465026]
NegVQA(ネグVQA)は、様々な否定シナリオと画像探索分布をカバーする7,379の2項目からなる視覚的質問応答(VQA)ベンチマークである。我々は,既存のVQAデータセットから質問の否定バージョンを生成するために,大規模な言語モデルを活用してNegVQAを構築する。我々は、7つのモデルファミリーにわたる20の最先端のビジョン言語モデルを評価し、これらのモデルが否定にかなり苦労していることを見出した。
論文参考訳（メタデータ） (2025-05-28T23:58:37Z)
Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文参考訳（メタデータ） (2025-01-31T10:37:48Z)
NeIn: Telling What You Don't Want [6.666707176043472]
否定は、人間が望まない情報を伝達するために使用する基本的な言語概念である。人間のレベルの知性を達成するための障壁の1つは、否定の研究を評価するための標準収集の欠如である。本稿では,視覚言語領域内の否定を研究するための,最初の大規模データセットNegative Instruction(NeIn)を提案する。
論文参考訳（メタデータ） (2024-09-09T04:54:34Z)
How and where does CLIP process negation? [2.5600000778964294]
VALSEベンチマークからモデルによる否定の理解をテストするために,既存のタスクを構築した。本稿では,モデル解釈可能性に関する文献からインスピレーションを得て,否定の理解におけるVLモデルの振る舞いを説明する。
論文参考訳（メタデータ） (2024-07-15T07:20:06Z)
Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文参考訳（メタデータ） (2024-04-03T03:14:27Z)
This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models [4.017326849033009]
我々は,否定を理解する大規模言語モデルの最適部分性能の理由を明らかにする。我々は,コモンセンス知識に関する40万前後の記述文を半自動生成する大規模データセットを提案する。我々は,その一般化と推論能力を把握するために,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築した。
論文参考訳（メタデータ） (2023-10-24T15:38:21Z)
Language models are not naysayers: An analysis of language models on negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。 LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文参考訳（メタデータ） (2023-06-14T01:16:37Z)
CONDAQA: A Contrastive Reading Comprehension Dataset for Reasoning about Negation [21.56001677478673]
本稿では,段落における否定文の意味に関する推論を必要とする,最初の英語読解データセットを提案する。 CONDAQAは1,182組の質問応答ペアと200以上のユニークな否定的手がかりを備える。 CONDAQAの最高のパフォーマンスモデル(UnifiedQA-v2-3b)は、我々の一貫性基準で42%しか達成できません。
論文参考訳（メタデータ） (2022-11-01T06:10:26Z)
Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文参考訳（メタデータ） (2022-05-09T02:41:11Z)
Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文参考訳（メタデータ） (2021-05-07T21:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。