論文の概要: CLAP: Isolating Content from Style through Contrastive Learning with
Augmented Prompts
- arxiv url: http://arxiv.org/abs/2311.16445v2
- Date: Sat, 9 Mar 2024 05:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:08:25.276374
- Title: CLAP: Isolating Content from Style through Contrastive Learning with
Augmented Prompts
- Title(参考訳): CLAP: Augmented Promptsによるコントラスト学習によるコンテンツ分離
- Authors: Yichao Cai, Yuhang Liu, Zhen Zhang, Javen Qinfeng Shi
- Abstract要約: コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
- 参考スコア(独自算出の注目度): 12.838906765729748
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Contrastive vision-language models, such as CLIP, have garnered considerable
attention for various dowmsteam tasks, mainly due to the remarkable ability of
the learned features for generalization. However, the features they learned
often blend content and style information, which somewhat limits their
generalization capabilities under distribution shifts. To address this
limitation, we adopt a causal generative perspective for multimodal data and
propose contrastive learning with data augmentation to disentangle content
features from the original representations. To achieve this, we begins with
exploring image augmentation techniques and develop a method to seamlessly
integrate them into pre-trained CLIP-like models to extract pure content
features. Taking a step further, recognizing the inherent semantic richness and
logical structure of text data, we explore the use of text augmentation to
isolate latent content from style features. This enables CLIP-like model's
encoders to concentrate on latent content information, refining the learned
representations by pre-trained CLIP-like models. Our extensive experiments
across diverse datasets demonstrate significant improvements in zero-shot and
few-shot classification tasks, alongside enhanced robustness to various
perturbations. These results underscore the effectiveness of our proposed
methods in refining vision-language representations and advancing the
state-of-the-art in multimodal learning.
- Abstract(参考訳): CLIPのような対照的な視覚言語モデルは、学習した特徴を一般化するための顕著な能力のために、様々なdowmsteamタスクにかなりの注意を払っている。
しかし、彼らが学んだ機能は、しばしばコンテンツとスタイル情報をブレンドし、分散シフト下での一般化能力を制限する。
この制限に対処するために,マルチモーダルデータに対する因果的生成的視点を採用し,データ拡張によるコントラスト学習を提案し,元の表現からコンテンツ特徴を引き離す。
これを実現するために,画像拡張手法の検討から始め,学習済みクリップライクなモデルにシームレスに統合して純粋なコンテンツ特徴を抽出する手法を開発した。
さらに、テキストデータの固有の意味的豊かさと論理構造を認識し、潜在コンテンツとスタイル特徴を分離するためのテキスト拡張の利用について検討する。
これにより、CLIPライクなモデルのエンコーダは、遅延コンテンツ情報に集中でき、事前トレーニングされたCLIPライクなモデルによって学習された表現を洗練できる。
さまざまなデータセットにわたる広範な実験によって,ゼロショットと少数ショットの分類タスクが大幅に改善され,さまざまな摂動に対する堅牢性が向上しています。
これらの結果は,視覚言語表現の洗練とマルチモーダル学習の最先端化における提案手法の有効性を強調するものである。
関連論文リスト
- Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文 参考訳(メタデータ) (2023-02-18T07:36:16Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Contrastive Language-Image Pre-Training with Knowledge Graphs [33.211811772961234]
本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。
我々のモデルは、視覚と言語の表現を高い品質で意味的に整合させ、シナリオやモダリティを越えて推論能力を高めることができる。
論文 参考訳(メタデータ) (2022-10-17T09:49:22Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。