論文の概要: What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging
- arxiv url: http://arxiv.org/abs/2510.13232v1
- Date: Wed, 15 Oct 2025 07:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.545606
- Title: What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging
- Title(参考訳): 検出する「ノー」とは何か:構造的推論とトークンマージによる否定認識型VLM
- Authors: Inha Kang, Youngsun Lim, Seonho Lee, Jiho Choi, Junsuk Choe, Hyunjung Shim,
- Abstract要約: 最先端のビジョン言語モデル(VLM)は否定を理解する上で重大な失敗を経験し、しばしば肯定バイアスと呼ばれる。
CoVANDは,システムチェーン(CoT)とVQAベースのパイプラインで構築されたデータセットで,高品質なインスタンス基底型否定データを生成する。
第二に,肯定バイアスのアーキテクチャ的原因に直接対処する新しいテキストトークンマージモジュールNegToMeを提案する。
- 参考スコア(独自算出の注目度): 42.41372222021938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art vision-language models (VLMs) suffer from a critical failure in understanding negation, often referred to as affirmative bias. This limitation is particularly severe in described object detection (DOD) tasks. To address this, we propose two primary contributions: (1) a new dataset pipeline and (2) a novel, lightweight adaptation recipe. First, we introduce CoVAND, a dataset constructed with a systematic chain-of-thought (CoT) and VQA-based pipeline to generate high-quality, instance-grounded negation data. Second, we propose NegToMe, a novel text token merging module that directly tackles the architectural cause of affirmative bias. NegToMe fundamentally addresses the structural loss of negation cues in tokenization, grouping them with attributes into coherent semantic phrases. It maintains correct polarity at the input level, enabling robust negation understanding even with limited data. For instance, to prevent a model from treating the fragmented tokens "not" and "girl" as simply "girl", NegToMe binds them into a single token whose meaning is correctly distinguished from that of "girl" alone. This module is integrated with a parameter-efficient and strategic LoRA fine-tuning approach. Our method significantly improves performance on challenging negation benchmarks with a lowered false positive rate, boosting NMS-AP by up to +10.8 points on OVDEval and demonstrating generalization to SoTA VLMs. This work marks a crucial step forward in addressing negation understanding for real-world detection applications.
- Abstract(参考訳): 最先端のビジョン言語モデル(VLM)は否定を理解する上で重大な失敗を経験し、しばしば肯定バイアスと呼ばれる。
この制限は、説明対象検出(DOD)タスクにおいて特に深刻である。
そこで本研究では,(1)新しいデータセットパイプラインと(2)新しい軽量適応レシピを提案する。
まず,システムチェーン(CoT)とVQAベースのパイプラインで構築されたデータセットであるCoVANDを紹介し,高品質なインスタンス基底否定データを生成する。
第二に,肯定バイアスのアーキテクチャ的原因に直接対処する新しいテキストトークンマージモジュールNegToMeを提案する。
NegToMeは、トークン化における否定キューの構造的損失を根本的に解決し、属性をコヒーレントなセマンティックフレーズにグループ化する。
入力レベルで正しい極性を維持し、限られたデータでも堅牢な否定的理解を可能にする。
例えば、モデルが断片化されたトークン "not" と "girl" を単に "girl" として扱うのを防ぐため、NegToMe はそれらを "girl" 単独と正しく区別された単一のトークンに結合する。
このモジュールはパラメータ効率が高く戦略的なLoRA微調整手法と統合されている。
OVDEvalのNMS-APは最大+10.8ポイント向上し,SOTA VLMの一般化を示す。
この研究は、現実世界の検知アプリケーションに対する否定的理解に対処する上で、重要な一歩となる。
関連論文リスト
- Negation-Aware Test-Time Adaptation for Vision-Language Models [26.043679706381646]
視覚言語モデル(VLM)における実用的だが触覚の少ない問題について検討する。
多くの現実世界のアプリケーションは、偽物や存在しないものを明確に識別するためにモデルを必要とする。
本研究では,推論中の分布関連パラメータを効率的に調整するNegation-Aware Test-Time Adaptation (NEAT)法を提案する。
論文 参考訳(メタデータ) (2025-07-25T08:25:48Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Know "No" Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP [57.33324843049638]
本稿では,大言語モデル(LLM)と多モーダルLLMを用いたデータ生成パイプラインを導入し,否定を包含するキャプションを生成する。
パイプラインから生成したデータを微調整したCLIPを用いて,一般性を維持しつつ否定意識を高めるNegationCLIPを開発した。
さまざまなCLIPアーキテクチャの実験は、CLIPの否定を正確に認識する能力を向上する上で、データ生成パイプラインの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-19T01:17:05Z) - Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。