論文の概要: StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization
- arxiv url: http://arxiv.org/abs/2302.09251v3
- Date: Tue, 28 Nov 2023 07:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:58:38.446687
- Title: StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization
- Title(参考訳): StyLIP: CLIPベースのドメイン一般化のためのマルチスケールスタイルのプロンプト学習
- Authors: Shirsha Bose, Ankit Jha, Enrico Fini, Mainak Singha, Elisa Ricci,
Biplab Banerjee
- Abstract要約: StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
- 参考スコア(独自算出の注目度): 26.08922351077744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale foundation models, such as CLIP, have demonstrated impressive
zero-shot generalization performance on downstream tasks, leveraging
well-designed language prompts. However, these prompt learning techniques often
struggle with domain shift, limiting their generalization capabilities. In our
study, we tackle this issue by proposing StyLIP, a novel approach for Domain
Generalization (DG) that enhances CLIP's classification performance across
domains. Our method focuses on a domain-agnostic prompt learning strategy,
aiming to disentangle the visual style and content information embedded in
CLIP's pre-trained vision encoder, enabling effortless adaptation to novel
domains during inference. To achieve this, we introduce a set of style
projectors that directly learn the domain-specific prompt tokens from the
extracted multi-scale style features. These generated prompt embeddings are
subsequently combined with the multi-scale visual content features learned by a
content projector. The projectors are trained in a contrastive manner,
utilizing CLIP's fixed vision and text backbones. Through extensive experiments
conducted in five different DG settings on multiple benchmark datasets, we
consistently demonstrate that StyLIP outperforms the current state-of-the-art
(SOTA) methods.
- Abstract(参考訳): CLIPのような大規模ファウンデーションモデルは、よく設計された言語プロンプトを活用して、下流タスクで印象的なゼロショットの一般化性能を示した。
しかし、これらの即興学習技術は、しばしばドメインシフトに苦しめられ、一般化能力が制限される。
本研究では、ドメイン間の分類性能を高めるドメイン一般化(DG)の新しいアプローチであるStyLIPを提案し、この問題に対処する。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚スタイルやコンテンツ情報を,ドメインに依存しないプロンプト学習戦略に重点を置いている。
そこで我々は,抽出したマルチスケールスタイルの特徴から,ドメイン固有のプロンプトトークンを直接学習する一連のスタイルプロジェクタを提案する。
これらの生成したプロンプト埋め込みは、その後、コンテンツプロジェクタが学習したマルチスケールのビジュアルコンテンツ機能と組み合わせられる。
プロジェクタは、CLIPの固定されたビジョンとテキストバックボーンを利用して、対照的な方法でトレーニングされる。
複数のベンチマークデータセット上で5つの異なるDG設定で実施された広範な実験を通じて、StyLIPが現在のSOTA(State-of-the-art)メソッドよりも優れていることを一貫して実証する。
関連論文リスト
- LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。
LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。
提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - In the Era of Prompt Learning with Vision-Language Models [1.060608983034705]
ドメイン一般化のためのドメインに依存しない新しい学習戦略であるtextscStyLIP を紹介する。
StyLIPは、スタイルプロジェクタを使用してドメイン固有のプロンプトトークンを学習することで、CLIPsビジョンエンコーダの視覚スタイルとコンテンツを切り離す。
また,CLIPの凍結視覚バックボーンを利用した非教師なし領域適応(DA)のためのAD-CLIPを提案する。
論文 参考訳(メタデータ) (2024-11-07T17:31:21Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - C-SAW: Self-Supervised Prompt Learning for Image Generalization in
Remote Sensing [12.930814370829893]
本稿では,大規模事前学習型視覚言語モデル(VLM)であるCLIPを用いて,光学リモートセンシング画像の解析における領域およびクラス一般化問題に焦点をあてる。
既存のプロンプト学習技術は、ドメイン情報とコンテンツ情報をプロンプトに組み込むことの重要性を見落としている。
本稿では,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を保証するソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-27T13:35:20Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。