論文の概要: Augmenting CLIP with Improved Visio-Linguistic Reasoning
- arxiv url: http://arxiv.org/abs/2307.09233v2
- Date: Thu, 27 Jul 2023 18:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 15:24:08.641669
- Title: Augmenting CLIP with Improved Visio-Linguistic Reasoning
- Title(参考訳): Visio-Linguistic Reasoningの改良によるCLIPの増強
- Authors: Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil
Feizi
- Abstract要約: 本稿では,CLIPの視覚言語推論能力を向上させるために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
提案手法は,異なるCLIPモデルの絶対的視覚言語性能を最大7%向上させる。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
- 参考スコア(独自算出の注目度): 51.135606355630046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text contrastive models such as CLIP are useful for a variety of
downstream applications including zero-shot classification, image-text
retrieval and transfer learning. However, these contrastively trained
vision-language models often fail on compositional visio-linguistic tasks such
as Winoground with performance equivalent to random chance. In our paper, we
address this issue and propose a sample-efficient light-weight method called
SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities
of CLIP. The core idea of our method is to use differentiable image
parameterizations to fine-tune CLIP with a distillation objective from large
text-to-image generative models such as Stable-Diffusion which are relatively
good at visio-linguistic reasoning tasks. On the challenging Winoground
compositional reasoning benchmark, our method improves the absolute
visio-linguistic performance of different CLIP models by up to 7%, while on the
ARO dataset, our method improves the visio-linguistic performance by upto 3%.
As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find
that the zero-shot performance improves marginally on a variety of downstream
datasets. Our method reinforces that carefully designed distillation objectives
from generative models can be leveraged to extend existing contrastive
image-text models with improved visio-linguistic reasoning capabilities.
- Abstract(参考訳): CLIPのような画像テキストコントラストモデルは、ゼロショット分類、画像テキスト検索、転送学習など、さまざまなダウンストリームアプリケーションに有用である。
しかし、これらの対照的に訓練された視覚言語モデルは、しばしばウィノグラウンドのような構成的なヴィシオ言語的タスクで失敗する。
本稿では,この課題に対処し,CLIPの合成視覚言語推論能力を改善するために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
本手法の核となる考え方は,ヴィシオ言語推論タスクに比較的適した安定拡散などの大規模テキスト対画像生成モデルから,蒸留目的の蒸留クリップを微調整するために微分可能な画像パラメータ化を用いることである。
挑戦的なWinogroundコンポジション推論ベンチマークでは,異なるCLIPモデルの絶対的ビオ言語性能を最大7%向上する一方,AROデータセットでは最大3%向上する。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
提案手法は, 既存のコントラスト画像テキストモデルを拡張し, 視覚言語的推論能力を向上させるために, 生成モデルからの蒸留目標を慎重に設計できることを裏付けるものである。
関連論文リスト
- CounterCurate: Enhancing Physical and Semantic Visio-Linguistic
Compositional Reasoning via Counterfactual Examples [37.92461408215183]
視覚言語合成推論能力を包括的に改善するフレームワークであるCounterCurateを提案する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
我々は、高パフォーマンステキスト生成と画像生成モデル、特にGPT-4VとDALLE-3の能力を利用して、難解なセマンティックカウンターファクトをキュレートする。
論文 参考訳(メタデータ) (2024-02-20T18:59:55Z) - Prompting Large Vision-Language Models for Compositional Reasoning [12.908633583017359]
本研究では,大規模な視覚言語モデルに画像の描写を促し,合成推論を行う新しい生成手法を提案する。
提案手法は,Winogroundデータセット上の他の埋め込み手法よりも優れており,最適記述によって拡張された場合,最大10%の精度が向上する。
論文 参考訳(メタデータ) (2024-01-20T22:04:28Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP [92.7485653161698]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - CLIP-KD: An Empirical Study of Distilling CLIP Models [14.384452592716896]
本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。
MSE損失による最も単純な特徴の模倣が最善であることを示す。
本研究では,1500万対(画像,テキスト)で学習した学生ネットワークを抽出するために,統一的な手法を適用した。
論文 参考訳(メタデータ) (2023-07-24T12:24:07Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。