論文の概要: Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations
- arxiv url: http://arxiv.org/abs/2403.20312v1
- Date: Fri, 29 Mar 2024 17:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 14:55:26.092797
- Title: Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations
- Title(参考訳): No" を学習して "Yes" を良く言う - 否定を通じて視覚言語モデルを改善する
- Authors: Jaisidh Singh, Ishaan Shrivastava, Mayank Vatsa, Richa Singh, Aparna Bharati,
- Abstract要約: 既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
- 参考スコア(独自算出の注目度): 43.484570564890866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision-language models (VLMs) treat text descriptions as a unit, confusing individual concepts in a prompt and impairing visual semantic matching and reasoning. An important aspect of reasoning in logic and language is negations. This paper highlights the limitations of popular VLMs such as CLIP, at understanding the implications of negations, i.e., the effect of the word "not" in a given prompt. To enable evaluation of VLMs on fluent prompts with negations, we present CC-Neg, a dataset containing 228,246 images, true captions and their corresponding negated captions. Using CC-Neg along with modifications to the contrastive loss of CLIP, our proposed CoN-CLIP framework, has an improved understanding of negations. This training paradigm improves CoN-CLIP's ability to encode semantics reliably, resulting in 3.85% average gain in top-1 accuracy for zero-shot image classification across 8 datasets. Further, CoN-CLIP outperforms CLIP on challenging compositionality benchmarks such as SugarCREPE by 4.4%, showcasing emergent compositional understanding of objects, relations, and attributes in text. Overall, our work addresses a crucial limitation of VLMs by introducing a dataset and framework that strengthens semantic associations between images and text, demonstrating improved large-scale foundation models with significantly reduced computational cost, promoting efficiency and accessibility.
- Abstract(参考訳): 既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念を即座に混乱させ、視覚的セマンティックマッチングと推論を損なう。
論理学と言語における推論の重要な側面は否定である。
本稿では,CLIP などの一般的な VLM の限界,すなわち,あるプロンプトにおける "not" という単語の効果を理解することを目的とした。
228,246の画像,真のキャプション,それに対応する否定的なキャプションを含むデータセットであるCC-Negを提案する。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
このトレーニングパラダイムは、CoN-CLIPのセマンティクスを確実にエンコードする能力を改善し、8つのデータセットでゼロショット画像分類を行う場合、トップ1の精度が平均3.85%向上する。
さらに、CoN-CLIPは、SugarCREPEのような難しい構成性ベンチマークにおいてCLIPよりも4.4%優れており、テキスト内のオブジェクト、関係、属性の創発的な構成的理解を示している。
全体として、画像とテキストのセマンティックな関連性を強化するデータセットとフレームワークを導入し、計算コストを大幅に削減し、効率とアクセシビリティを向上させる大規模基盤モデルの改善を実証し、VLMの限界に対処する。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos [19.08882495584709]
セマンティックな特性を損なうことなく,CLIPの細粒度・統語能力を高めることが可能であることを示す。
私たちは、高品質で包括的で比較的小さなデータセットにCLIPを効率的に適用します。
我々は、細部指向のセマンティック理解を保った強力な視覚表現であるファイングラインドCLIP(FiGCLIP)を学習する。
論文 参考訳(メタデータ) (2024-01-15T13:27:34Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Unifying Graph Contrastive Learning with Flexible Contextual Scopes [57.86762576319638]
フレキシブルコンテキストスコープを用いたグラフコントラスト学習(略してUGCL)という自己教師型学習手法を提案する。
本アルゴリズムは,隣接行列のパワーを制御し,コンテキストスコープによるフレキシブルな文脈表現を構築する。
局所的スコープと文脈的スコープの両方の表現に基づいて、distLはグラフ表現学習のための非常に単純な対照的な損失関数を最適化する。
論文 参考訳(メタデータ) (2022-10-17T07:16:17Z) - Label Anchored Contrastive Learning for Language Understanding [17.28721753405111]
言語理解のための新しいラベル付きコントラスト学習手法(LaCon)を提案する。
当社のアプローチでは、特別なネットワークアーキテクチャや追加のデータ拡張は必要ありません。
LaConはGLUEとCLUEベンチマークの一般的なデータセットを最大4.1%改善する。
論文 参考訳(メタデータ) (2022-04-26T15:33:01Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。