論文の概要: Augmenting CLIP with Improved Visio-Linguistic Reasoning
- arxiv url: http://arxiv.org/abs/2307.09233v2
- Date: Thu, 27 Jul 2023 18:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 15:24:08.641669
- Title: Augmenting CLIP with Improved Visio-Linguistic Reasoning
- Title(参考訳): Visio-Linguistic Reasoningの改良によるCLIPの増強
- Authors: Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil
Feizi
- Abstract要約: 本稿では,CLIPの視覚言語推論能力を向上させるために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
提案手法は,異なるCLIPモデルの絶対的視覚言語性能を最大7%向上させる。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
- 参考スコア(独自算出の注目度): 51.135606355630046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text contrastive models such as CLIP are useful for a variety of
downstream applications including zero-shot classification, image-text
retrieval and transfer learning. However, these contrastively trained
vision-language models often fail on compositional visio-linguistic tasks such
as Winoground with performance equivalent to random chance. In our paper, we
address this issue and propose a sample-efficient light-weight method called
SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities
of CLIP. The core idea of our method is to use differentiable image
parameterizations to fine-tune CLIP with a distillation objective from large
text-to-image generative models such as Stable-Diffusion which are relatively
good at visio-linguistic reasoning tasks. On the challenging Winoground
compositional reasoning benchmark, our method improves the absolute
visio-linguistic performance of different CLIP models by up to 7%, while on the
ARO dataset, our method improves the visio-linguistic performance by upto 3%.
As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find
that the zero-shot performance improves marginally on a variety of downstream
datasets. Our method reinforces that carefully designed distillation objectives
from generative models can be leveraged to extend existing contrastive
image-text models with improved visio-linguistic reasoning capabilities.
- Abstract(参考訳): CLIPのような画像テキストコントラストモデルは、ゼロショット分類、画像テキスト検索、転送学習など、さまざまなダウンストリームアプリケーションに有用である。
しかし、これらの対照的に訓練された視覚言語モデルは、しばしばウィノグラウンドのような構成的なヴィシオ言語的タスクで失敗する。
本稿では,この課題に対処し,CLIPの合成視覚言語推論能力を改善するために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
本手法の核となる考え方は,ヴィシオ言語推論タスクに比較的適した安定拡散などの大規模テキスト対画像生成モデルから,蒸留目的の蒸留クリップを微調整するために微分可能な画像パラメータ化を用いることである。
挑戦的なWinogroundコンポジション推論ベンチマークでは,異なるCLIPモデルの絶対的ビオ言語性能を最大7%向上する一方,AROデータセットでは最大3%向上する。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
提案手法は, 既存のコントラスト画像テキストモデルを拡張し, 視覚言語的推論能力を向上させるために, 生成モデルからの蒸留目標を慎重に設計できることを裏付けるものである。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model [49.587821411012705]
コントラスト言語画像前処理モデルのための包括的知識蒸留法ComKD-CLIPを提案する。
大規模な教師CLIPモデルからより小さな学生モデルに知識を抽出し、パラメータを著しく減らして同等のパフォーマンスを確保する。
EduAttentionは教師モデルで抽出したテキスト特徴と学生モデルで抽出した画像特徴との相互関係を探索する。
論文 参考訳(メタデータ) (2024-08-08T01:12:21Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models [0.0]
本稿では,従来のCLIP手法の制約を克服する革新的なフレームワークであるCascadeVLMを紹介する。
様々なきめ細かい画像データセットに対する実験により、CascadeVLMは既存のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-05-18T14:12:04Z) - CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。
特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文 参考訳(メタデータ) (2024-02-20T18:59:55Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。