論文の概要: Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.24424v1
- Date: Fri, 30 May 2025 10:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.892998
- Title: Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning
- Title(参考訳): 効率的なファインチューニングによるCLIPの構成意識の向上
- Authors: Amit Peleg, Naman Deep Singh, Matthias Hein,
- Abstract要約: CLIC(Compositionally-Aware Learning in CLIP)は,複数の画像と関連するキャプションを組み合わせた新しいトレーニング手法である。
Clicは、構文理解と意味理解の両面で、アーキテクチャ間の構成性だけでなく、トレーニング済みのCLIPモデルも改善する。
それでも、CLICによる短い微調整は、検索の改善とSugarCrepe++の最高のコンポジションCLIPモデルにつながる。
- 参考スコア(独自算出の注目度): 32.9423168009539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models like CLIP have demonstrated remarkable zero-shot capabilities in classification and retrieval. However, these models often struggle with compositional reasoning - the ability to understand the relationships between concepts. A recent benchmark, SugarCrepe++, reveals that previous works on improving compositionality have mainly improved lexical sensitivity but neglected semantic understanding. In addition, downstream retrieval performance often deteriorates, although one would expect that improving compositionality should enhance retrieval. In this work, we introduce CLIC (Compositionally-aware Learning in CLIP), a fine-tuning method based on a novel training technique combining multiple images and their associated captions. CLIC improves compositionality across architectures as well as differently pre-trained CLIP models, both in terms of lexical and semantic understanding, and achieves consistent gains in retrieval performance. This even applies to the recent CLIPS, which achieves SOTA retrieval performance. Nevertheless, the short fine-tuning with CLIC leads to an improvement in retrieval and to the best compositional CLIP model on SugarCrepe++. All our models and code are available at https://clic-compositional-clip.github.io
- Abstract(参考訳): CLIPのような視覚言語モデルは、分類と検索において顕著なゼロショット機能を示している。
しかしながら、これらのモデルは、しばしば構成的推論(概念間の関係を理解する能力)に苦しむ。
最近のベンチマークであるSugarCrepe++は、構成性の改善に関する以前の研究は主に語彙の感度を改善したが、セマンティック理解は無視されていることを明らかにしている。
さらに、下流の検索性能は劣化することが多いが、構成性の改善は検索を向上させるだろうと期待される。
本稿では,CLIC(Compositionally-Aware Learning in CLIP)を紹介する。
CLICは、アーキテクチャ間の構成性や、語彙的および意味的理解の両面で異なる事前訓練されたCLIPモデルを改善し、検索性能において一貫した向上を達成する。
これは、SOTA検索性能を実現する最近のCLIPSにも適用される。
それでも、CLICによる短い微調整は、検索の改善とSugarCrepe++における最高のコンポジションCLIPモデルにつながる。
すべてのモデルとコードはhttps://clic-compositional-clip.github.ioで利用可能です。
関連論文リスト
- un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。
この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2025-05-30T12:29:38Z) - Learning Visual Composition through Improved Semantic Guidance [19.24813992815684]
ラベル付けされたデータを大幅に改善することで、標準的なコントラスト学習手法の性能を大幅に改善できることを示す。
本結果は,DOCCIから得られた比較的新しいキャプションベンチマークで紹介する。
拡張されたデータでトレーニングされた標準的なCLIPモデルは、画像検索タスクにおいて印象的なパフォーマンスを示すかもしれない。
論文 参考訳(メタデータ) (2024-12-19T20:58:26Z) - Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Don't Stop Learning: Towards Continual Learning for the CLIP Model [21.212839450030838]
Contrastive Language-Image Pre-Training(CLIP)モデルは、最近提案された大規模プレトレインモデルである。
本研究は,CLIPモデルの連続学習問題に関する体系的研究を行う。
筆者らは,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T13:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。