論文の概要: Contrastive vision-language learning with paraphrasing and negation
- arxiv url: http://arxiv.org/abs/2511.16527v1
- Date: Thu, 20 Nov 2025 16:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.727391
- Title: Contrastive vision-language learning with paraphrasing and negation
- Title(参考訳): パラフレーズと否定を用いたコントラスト視覚言語学習
- Authors: Kwun Ho Ngan, Saman Sadeghi Afgeh, Joe Townsend, Artur d'Avila Garcez,
- Abstract要約: コントラスト言語-画像事前学習(CLIP)は、2つのニューラルネットワークを対照的に訓練し、画像とテキストの埋め込みを共有潜在空間に整列させる。
否定的あるいは言い換え的テキスト上でCLIPを評価する結果は、否定的変化が最小の語彙的変化を根本的に意味するのに対して、パラフレーズ化は、同じ意味を持つ全く異なるテキスト表現を生成できるため、混合的なパフォーマンスを示している。
本稿では, パラフレージングと否定の両方を考慮した新たなCLIP比較損失関数を提案し, オリジナル, パラフレージング, 否定文キャプションからなるLCM生成トレーニングトリプルをCLIPライクなトレーニングモデルに適用する。
- 参考スコア(独自算出の注目度): 0.018665975431697426
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive vision-language models continue to be the dominant approach for image and text retrieval. Contrastive Language-Image Pre-training (CLIP) trains two neural networks in contrastive manner to align their image and text embeddings in a shared latent space. Recent results evaluating CLIP on negated or paraphrased text have shown mixed performance because negation changes meaning radically with minimal lexical changes, while paraphrasing can create very different textual expressions with the same intended meaning. This poses a significant challenge for improving the evaluation results and alignment of vision-language models. To address this challenge, this paper evaluates the combination of paraphrasing and negation, proposes a new CLIP contrastive loss function accounting for both paraphrasing and negation, and applies LLM-generated training triples consisting of original, paraphrased and negated textual captions to CLIP-like training models. The approach, called SemCLIP, is shown to move paraphrased captions towards the original image embeddings while pushing negated captions further away in embedding space. Empirically, SemCLIP is shown to be capable of preserving CLIP's performance while increasing considerably the distances to negated captions. On the CC-Neg benchmark using an original over negation image-retrieval accuracy metric, SemCLIP improves accuracy from 68.1% to 78.1%. Although results are mixed when compared with CLIP on the Sugarcrepe++ benchmark, SemCLIP's performance is generally better than the models trained with negated captions. This robustness to negation extends to downstream zero-shot classification tasks where SemCLIP pre-trained on Sugarcrepe++ performs better than CLIP on all tested downstream tasks. These results indicate that SemCLIP can achieve significant robustness to semantic transformations.
- Abstract(参考訳): コントラスト的視覚言語モデルは、画像とテキストの検索において支配的なアプローチであり続けている。
Contrastive Language-Image Pre-Training (CLIP)は、2つのニューラルネットワークを対照的に訓練し、画像とテキストの埋め込みを共有潜在空間に整列させる。
否定的あるいは言い換え的テキスト上でCLIPを評価する最近の結果は、否定的変化が最小の語彙的変化を根本的に意味するのに対して、パラフレーズ化は、同じ意味を持つ全く異なるテキスト表現を生成できるため、混合的なパフォーマンスを示している。
これは、視覚言語モデルの評価結果とアライメントを改善する上で大きな課題となる。
この課題に対処するために、パラフレーズと否定の組み合わせを評価し、パラフレーズと否定の両方を考慮した新しいCLIPコントラスト損失関数を提案し、元の、パラフレーズ付き、否定されたテキストキャプションからなるLLM生成トレーニングトリプルをCLIPライクなトレーニングモデルに適用する。
SemCLIPと呼ばれるこの手法は、言い換えられたキャプションを元のイメージ埋め込みへ移動させ、否定的なキャプションを埋め込みスペースにさらに押し込む。
経験的に、SemCLIPはCLIPの性能を保ちつつ、否定的なキャプションまでの距離を大きく伸ばすことができる。
元のオーバーネゲーション画像検索精度メトリックを使用したCC-Negベンチマークでは、SemCLIPは精度を68.1%から78.1%に改善している。
Sugarcrepe++ベンチマークのCLIPと比較すると、結果はさまざまだが、SemCLIPのパフォーマンスは一般的に、否定的なキャプションでトレーニングされたモデルよりも優れている。
Sugarcrepe++で事前トレーニングされたSemCLIPは、テストされたすべてのダウンストリームタスクにおいて、CLIPよりもパフォーマンスがよい。
これらの結果から,SemCLIPはセマンティックトランスフォーメーションに対して大きなロバスト性を達成できることが示唆された。
関連論文リスト
- TNG-CLIP:Training-Time Negation Data Generation for Negation Awareness of CLIP [27.33315565500182]
視覚言語モデル(VLM)のための訓練時間否定データ生成パイプラインを導入する。
否定を含むプロンプト上でのテキスト・画像生成モデル評価のための最初のベンチマークNeg-TtoIを提案する。
提案手法であるTNG-CLIPは,画像対テキストマッチング,テキスト対画像検索,画像生成の様々な否定ベンチマークにおいてSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-05-24T00:02:48Z) - Know "No" Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP [57.33324843049638]
本稿では,大言語モデル(LLM)と多モーダルLLMを用いたデータ生成パイプラインを導入し,否定を包含するキャプションを生成する。
パイプラインから生成したデータを微調整したCLIPを用いて,一般性を維持しつつ否定意識を高めるNegationCLIPを開発した。
さまざまなCLIPアーキテクチャの実験は、CLIPの否定を正確に認識する能力を向上する上で、データ生成パイプラインの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-19T01:17:05Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。