論文の概要: Omni-NegCLIP: Enhancing CLIP with Front-Layer Contrastive Fine-Tuning for Comprehensive Negation Understanding
- arxiv url: http://arxiv.org/abs/2603.29258v1
- Date: Tue, 31 Mar 2026 04:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.153013
- Title: Omni-NegCLIP: Enhancing CLIP with Front-Layer Contrastive Fine-Tuning for Comprehensive Negation Understanding
- Title(参考訳): Omni-NegCLIP:包括的否定理解のためのFront-Layer Contrastive Fine-TuningによるCLIPの強化
- Authors: Jingqi Xu,
- Abstract要約: 近年,視覚言語モデル (VLM) は否定表現の理解に乏しいことが報告されている。
提案するOmni-NegCLIPは,CLIPの2種類の否定に対する理解を改善する細調整CLIPモデルである。
実験の結果,Omni-NegCLIPはプレトレーニング済みのCLIPと比較して,プレゼンスベース否定タスクと欠席ベース否定タスクのパフォーマンスを最大52.65%,12.50%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated strong capabilities across a wide range of multimodal tasks. However, recent studies have shown that VLMs, such as CLIP, perform poorly in understanding negation expressions, which are common in natural language. In this work, we propose Omni-NegCLIP, a fine-tuned CLIP model that improves CLIP's understanding of two types of negation, namely presence-based negation and absence-based negation, which correspond to negated expressions of objects that are actually present in an image and those that may plausibly exist in an image but are in fact absent, respectively, by modifying CLIP's original InfoNCE contrastive loss. Specifically, we design a presence-based contrastive objective that pulls image embeddings closer to their original caption embeddings while pushing them away from the corresponding presence-based negated caption embeddings, and an absence-based contrastive objective that aligns image embeddings with both original and absence-based negated caption embeddings while maintaining a semantic distinction between the two text embeddings. Based on our observation that the front transformer layers of CLIP text encoder have stronger learning ability for negated text than the later layers, we fine-tune the front transformer layers of the CLIP text encoder at each training step using the combined contrastive objective. Experimental results show that, compared with pretrained CLIP, Omni-NegCLIP improves performance on presence-based negation and absence-based negation tasks by up to 52.65% and 12.50%, respectively, without sacrificing general capability in image-text retrieval and even improving it by up to 19.62%. Compared with prior works, Omni-NegCLIP demonstrates a more comprehensive ability to understand multiple types of negation tasks.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて強力な機能を示す。
しかし、近年の研究では、CLIPのようなVLMは自然言語に共通する否定表現の理解に乏しいことが示されている。
そこで本研究では,CLIP の否定モデルである Omni-NegCLIP を提案する。このモデルでは,画像中に実際に存在するオブジェクトの否定表現に対応する存在に基づく否定と不在に基づく否定という,CLIP の元となる InfoNCE の対照的な損失を修正することによって,CLIP の2種類の否定に対する理解を改善する。
具体的には、画像埋め込みを元の字幕埋め込みに近づけつつ、対応する字幕埋め込みから遠ざけながら、画像埋め込みを元の字幕埋め込みに近づける存在ベースのコントラスト目的と、画像埋め込みを原文と不在型字幕埋め込みの両方に整合させる不在型コントラスト目的とを設計し、両者の意味的な区別を維持しながら、画像埋め込みを元の字幕埋め込みと不在型字幕埋め込みの両方に整合させる。
筆者らは,CLIPテキストエンコーダの前面トランスフォーマー層が,後者の層よりもテキストを否定する学習能力が高いことを観察し,コントラストを併用した各トレーニングステップにおいて,CLIPテキストエンコーダの前面トランスフォーマー層を微調整する。
実験の結果、事前訓練されたCLIPと比較して、Omni-NegCLIPは、画像テキスト検索の一般的な能力を犠牲にすることなく、プレゼンスベースの否定タスクと欠席ベースの否定タスクのパフォーマンスを最大52.65%、12.50%改善し、さらに19.62%改善した。
以前の研究と比較すると、Omni-NegCLIPは複数のタイプの否定タスクを理解するためのより包括的な能力を示している。
関連論文リスト
- Contrastive vision-language learning with paraphrasing and negation [0.018665975431697426]
コントラスト言語-画像事前学習(CLIP)は、2つのニューラルネットワークを対照的に訓練し、画像とテキストの埋め込みを共有潜在空間に整列させる。
否定的あるいは言い換え的テキスト上でCLIPを評価する結果は、否定的変化が最小の語彙的変化を根本的に意味するのに対して、パラフレーズ化は、同じ意味を持つ全く異なるテキスト表現を生成できるため、混合的なパフォーマンスを示している。
本稿では, パラフレージングと否定の両方を考慮した新たなCLIP比較損失関数を提案し, オリジナル, パラフレージング, 否定文キャプションからなるLCM生成トレーニングトリプルをCLIPライクなトレーニングモデルに適用する。
論文 参考訳(メタデータ) (2025-11-20T16:41:36Z) - VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Know "No" Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP [57.33324843049638]
本稿では,大言語モデル(LLM)と多モーダルLLMを用いたデータ生成パイプラインを導入し,否定を包含するキャプションを生成する。
パイプラインから生成したデータを微調整したCLIPを用いて,一般性を維持しつつ否定意識を高めるNegationCLIPを開発した。
さまざまなCLIPアーキテクチャの実験は、CLIPの否定を正確に認識する能力を向上する上で、データ生成パイプラインの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-19T01:17:05Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
画像間の差異のテキスト記述が画像埋め込み空間の差に対応するようにCLIPを微調整する。
提案手法は,特定の属性によって画像のランク付け能力を大幅に向上させ,下流画像分類タスクにおけるゼロショット分類性能を向上する。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。