論文の概要: Negation-Aware Test-Time Adaptation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.19064v2
- Date: Tue, 05 Aug 2025 03:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.760875
- Title: Negation-Aware Test-Time Adaptation for Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルに対する否定型テスト時間適応
- Authors: Haochen Han, Alex Jinpeng Wang, Fangming Liu, Jun Zhu,
- Abstract要約: 視覚言語モデル(VLM)における実用的だが触覚の少ない問題について検討する。
多くの現実世界のアプリケーションは、偽物や存在しないものを明確に識別するためにモデルを必要とする。
本研究では,推論中の分布関連パラメータを効率的に調整するNegation-Aware Test-Time Adaptation (NEAT)法を提案する。
- 参考スコア(独自算出の注目度): 26.043679706381646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a practical but less-touched problem in Vision-Language Models (VLMs), \ie, negation understanding. Specifically, many real-world applications require models to explicitly identify what is false or non-existent, \eg, radiologists may search for images that exclude specific conditions. Despite the impressive transferability of VLMs through large-scale training, they suffer from a critical limitation that fails to handle negation. To address this challenge, existing methods attribute its root cause to the scarcity of negation training data and propose to fine-tune VLMs on massive data containing explicit negation. Undoubtedly, such data-centric solutions demand substantial data and computational resources, limiting their sustainable widespread adoption. To tackle negation in a low-carbon manner, we empirically observe that the key obstacle lies in the dual-concept shifts between the affirmation and negation distributions. Therefore, we propose a Negation-Aware Test-Time Adaptation (NEAT) method to efficiently adjust distribution-related parameters during inference. In brief, NEAT can reduce distribution shift in consistent semantics while eliminating false distributional consistency in unrelated semantics. Extensive experiments on the various negation understanding tasks verify the effectiveness of the proposed method. Remarkably, with less than 0.01\% of trainable parameters, NEAT achieves comparable or superior performance to state-of-the-art post-training approaches. Our code is available at https://github.com/hhc1997/NEAT.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLMs, \ie, negation understanding, 否定的理解)において,実用的だが触覚の少ない問題について検討する。
具体的には、多くの現実世界のアプリケーションは、誤ったものや存在しないものを明確に識別するためにモデルを必要とするが、放射線学者は特定の条件を除外した画像を検索することができる。
大規模な訓練によるVLMの顕著な伝達性にもかかわらず、彼らは否定を扱うのに失敗する致命的な限界に悩まされている。
この課題に対処するため, 既存の手法では, 否定訓練データの不足による根本原因と, 明示的否定を含む大量のデータにVLMを微調整することを提案する。
もちろん、このようなデータ中心のソリューションは膨大なデータと計算資源を必要とし、持続的な普及を制限している。
低炭素方式でネゲーションに取り組むために、我々は、重要な障害が肯定分布と否定分布の二重概念シフトにあることを経験的に観察した。
そこで,提案手法では,推論中の分布関連パラメータを効率的に調整するNEAT法を提案する。
簡単に言えば、NEATは無関係な意味論における偽の分布一貫性を排除しながら、一貫性のある意味論における分布シフトを減らすことができる。
様々な否定理解タスクに関する大規模な実験により,提案手法の有効性が検証された。
注目すべきは、トレーニング可能なパラメータの0.01\%未満で、NEATは最先端のトレーニング後のアプローチと同等または優れたパフォーマンスを達成することだ。
私たちのコードはhttps://github.com/hhc1997/NEAT.comで公開されています。
関連論文リスト
- A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Know "No'' Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP [38.17750132434983]
本稿では,大言語モデル(LLM)と多モーダルLLMを用いたデータ生成パイプラインを導入し,否定を包含するキャプションを生成する。
パイプラインから生成したデータを微調整したCLIPを用いて,一般性を維持しつつ否定意識を高めるNegationCLIPを開発した。
さまざまなCLIPアーキテクチャの実験は、CLIPの否定を正確に認識する能力を向上する上で、データ生成パイプラインの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-19T01:17:05Z) - Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - Test-Time Distribution Normalization for Contrastively Learned
Vision-language Models [39.66329310098645]
CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。
本稿では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。
本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
論文 参考訳(メタデータ) (2023-02-22T01:14:30Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。
最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。
本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2022-05-09T02:41:11Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。