論文の概要: Concept-Guided Prompt Learning for Generalization in Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2401.07457v1
- Date: Mon, 15 Jan 2024 04:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:10:06.348110
- Title: Concept-Guided Prompt Learning for Generalization in Vision-Language
Models
- Title(参考訳): 視覚言語モデルにおける一般化のための概念誘導型即興学習
- Authors: Yi Zhang, Ce Zhang, Ke Yu, Yushun Tang, Zhihai He
- Abstract要約: 視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
- 参考スコア(独自算出の注目度): 33.361744437967126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) model has exhibited remarkable
efficacy in establishing cross-modal connections between texts and images,
yielding impressive performance across a broad spectrum of downstream
applications through fine-tuning. However, for generalization tasks, the
current fine-tuning methods for CLIP, such as CoOp and CoCoOp, demonstrate
relatively low performance on some fine-grained datasets. We recognize the
underlying reason is that these previous methods only projected global features
into the prompt, neglecting the various visual concepts, such as colors,
shapes, and sizes, which are naturally transferable across domains and play a
crucial role in generalization tasks. To address this issue, in this work, we
propose Concept-Guided Prompt Learning (CPL) for vision-language models.
Specifically, we leverage the well-learned knowledge of CLIP to create a visual
concept cache to enable concept-guided prompting. In order to refine the text
features, we further develop a projector that transforms multi-level visual
features into text features. We observe that this concept-guided prompt
learning approach is able to achieve enhanced consistency between visual and
linguistic modalities. Extensive experimental results demonstrate that our CPL
method significantly improves generalization capabilities compared to the
current state-of-the-art methods.
- Abstract(参考訳): Contrastive Language- Image Pretraining (CLIP) モデルは、テキストと画像間の相互接続を確立する上で、顕著な効果を示し、微調整により、下流の幅広いアプリケーションに印象的な性能をもたらす。
しかし、一般化タスクでは、CoOpやCoCoOpのようなCLIPの現在の微調整手法は、いくつかのきめ細かいデータセットで比較的低い性能を示す。
基本となる理由は、これらの以前の手法がプロンプトにグローバルな特徴だけを投影し、色、形、サイズといった様々な視覚概念を無視し、ドメイン間で自然に転送可能であり、一般化タスクにおいて重要な役割を果たすためである。
そこで本研究では,視覚言語モデルのための概念ガイド型プロンプト学習(CPL)を提案する。
具体的には,クリップの知識を生かして,概念誘導型プロンプトを実現するビジュアルコンセプトキャッシュを作成する。
テキスト機能を改良するために,マルチレベル視覚特徴をテキスト特徴に変換するプロジェクタをさらに開発する。
この概念誘導型即興学習アプローチは、視覚と言語的モダリティの一貫性を高めることができる。
広範な実験結果から,本手法は現在の手法に比べて一般化能力が大幅に向上することが示された。
関連論文リスト
- Conceptual Codebook Learning for Vision-Language Models [27.68834532978939]
視覚言語モデル(VLM)の一般化能力向上のためのCodebook Learning(CoCoLe)を提案する。
視覚概念をキーとして,概念的プロンプトを値として,概念的コードブックを学習する。
この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。
論文 参考訳(メタデータ) (2024-07-02T15:16:06Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Contrastive Language-Image Pre-Training with Knowledge Graphs [33.211811772961234]
本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。
我々のモデルは、視覚と言語の表現を高い品質で意味的に整合させ、シナリオやモダリティを越えて推論能力を高めることができる。
論文 参考訳(メタデータ) (2022-10-17T09:49:22Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。