論文の概要: Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning
- arxiv url: http://arxiv.org/abs/2602.21035v1
- Date: Tue, 24 Feb 2026 15:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.823114
- Title: Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning
- Title(参考訳): 単に何かがあるだけでなく、微調整なしで否定的なビジュアル記述を補完するCLIPの実装
- Authors: Junhao Xiao, Zhiyu Wu, Hao Lin, Yi Chen, Yahui Liu, Xiaoran Zhao, Zixu Wang, Zejiang He,
- Abstract要約: CLIPのようなビジョンランゲージモデル(VLM)は否定を理解するのに苦労する。
既存の方法は、微調整のCLIPのテキストエンコーダを通じて否定的理解を洗練し、過度に適合するリスクがある。
我々はCLIPの視覚的記述の理解能力を高めるプラグイン・アンド・プレイフレームワークであるCLIPGlassesを提案する。
- 参考スコア(独自算出の注目度): 23.10421006625293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) like CLIP struggle to understand negation, often embedding affirmatives and negatives similarly (e.g., matching "no dog" with dog images). Existing methods refine negation understanding via fine-tuning CLIP's text encoder, risking overfitting. In this work, we propose CLIPGlasses, a plug-and-play framework that enhances CLIP's ability to comprehend negated visual descriptions. CLIPGlasses adopts a dual-stage design: a Lens module disentangles negated semantics from text embeddings, and a Frame module predicts context-aware repulsion strength, which is integrated into a modified similarity computation to penalize alignment with negated semantics, thereby reducing false positive matches. Experiments show that CLIP equipped with CLIPGlasses achieves competitive in-domain performance and outperforms state-of-the-art methods in cross-domain generalization. Its superiority is especially evident under low-resource conditions, indicating stronger robustness across domains.
- Abstract(参考訳): CLIPのようなビジョンランゲージモデル(VLM)は否定を理解するのに苦労し、肯定的要素や否定的要素をしばしば埋め込む(例:「犬ではない」と犬の画像と一致する)。
既存の方法は、微調整のCLIPのテキストエンコーダを通じて否定的理解を洗練し、過度に適合するリスクがある。
本稿では,CLIPの視覚的記述の理解能力を高めるプラグイン・アンド・プレイフレームワークであるCLIPGlassesを提案する。
CLIPGlassesはデュアルステージ設計を採用しており、Lensモジュールはテキスト埋め込みから否定的セマンティクスを分離し、Frameモジュールはコンテキスト認識の反発強度を予測し、修正された類似性計算に統合され、否定的セマンティクスとのアライメントをペナル化する。
実験の結果,CLIPGlassを組み込んだCLIPはドメイン内での競合性能を実現し,ドメイン間の一般化において最先端の手法よりも優れていた。
その優位性は低リソース条件下で特に顕著であり、ドメイン間の強い堅牢性を示している。
関連論文リスト
- SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。
近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。
分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文 参考訳(メタデータ) (2025-12-16T15:11:53Z) - Contrastive vision-language learning with paraphrasing and negation [0.018665975431697426]
コントラスト言語-画像事前学習(CLIP)は、2つのニューラルネットワークを対照的に訓練し、画像とテキストの埋め込みを共有潜在空間に整列させる。
否定的あるいは言い換え的テキスト上でCLIPを評価する結果は、否定的変化が最小の語彙的変化を根本的に意味するのに対して、パラフレーズ化は、同じ意味を持つ全く異なるテキスト表現を生成できるため、混合的なパフォーマンスを示している。
本稿では, パラフレージングと否定の両方を考慮した新たなCLIP比較損失関数を提案し, オリジナル, パラフレージング, 否定文キャプションからなるLCM生成トレーニングトリプルをCLIPライクなトレーニングモデルに適用する。
論文 参考訳(メタデータ) (2025-11-20T16:41:36Z) - Understanding Hardness of Vision-Language Compositionality from A Token-level Causal Lens [12.946160260124378]
対照的な言語-イメージ 事前学習は強力なクロスモーダルな一般化をもたらす。
オブジェクト、属性、関係性に対する構成的推論では、永続的に失敗する。
完全モーダル不変アライメントを実現する擬似最適テキストエンコーダの存在を示す。
論文 参考訳(メタデータ) (2025-10-30T09:41:21Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - AlignCAT: Visual-Linguistic Alignment of Category and Attribute for Weakly Supervised Visual Grounding [56.972490764212175]
弱教師付きビジュアルグラウンドティングは、テキスト記述に基づいて画像中のオブジェクトを見つけることを目的としている。
既存の手法では、テキスト表現の微妙な意味的差異を区別するために、強力なクロスモーダル推論が欠如している。
本稿では、弱教師付きVGのための新しいクエリベースのセマンティックマッチングフレームワークAlignCATを紹介する。
論文 参考訳(メタデータ) (2025-08-05T08:16:35Z) - VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Know "No" Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP [57.33324843049638]
本稿では,大言語モデル(LLM)と多モーダルLLMを用いたデータ生成パイプラインを導入し,否定を包含するキャプションを生成する。
パイプラインから生成したデータを微調整したCLIPを用いて,一般性を維持しつつ否定意識を高めるNegationCLIPを開発した。
さまざまなCLIPアーキテクチャの実験は、CLIPの否定を正確に認識する能力を向上する上で、データ生成パイプラインの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-19T01:17:05Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。