論文の概要: StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization
- arxiv url: http://arxiv.org/abs/2302.09251v3
- Date: Tue, 28 Nov 2023 07:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:58:38.446687
- Title: StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization
- Title(参考訳): StyLIP: CLIPベースのドメイン一般化のためのマルチスケールスタイルのプロンプト学習
- Authors: Shirsha Bose, Ankit Jha, Enrico Fini, Mainak Singha, Elisa Ricci,
Biplab Banerjee
- Abstract要約: StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
- 参考スコア(独自算出の注目度): 26.08922351077744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale foundation models, such as CLIP, have demonstrated impressive
zero-shot generalization performance on downstream tasks, leveraging
well-designed language prompts. However, these prompt learning techniques often
struggle with domain shift, limiting their generalization capabilities. In our
study, we tackle this issue by proposing StyLIP, a novel approach for Domain
Generalization (DG) that enhances CLIP's classification performance across
domains. Our method focuses on a domain-agnostic prompt learning strategy,
aiming to disentangle the visual style and content information embedded in
CLIP's pre-trained vision encoder, enabling effortless adaptation to novel
domains during inference. To achieve this, we introduce a set of style
projectors that directly learn the domain-specific prompt tokens from the
extracted multi-scale style features. These generated prompt embeddings are
subsequently combined with the multi-scale visual content features learned by a
content projector. The projectors are trained in a contrastive manner,
utilizing CLIP's fixed vision and text backbones. Through extensive experiments
conducted in five different DG settings on multiple benchmark datasets, we
consistently demonstrate that StyLIP outperforms the current state-of-the-art
(SOTA) methods.
- Abstract(参考訳): CLIPのような大規模ファウンデーションモデルは、よく設計された言語プロンプトを活用して、下流タスクで印象的なゼロショットの一般化性能を示した。
しかし、これらの即興学習技術は、しばしばドメインシフトに苦しめられ、一般化能力が制限される。
本研究では、ドメイン間の分類性能を高めるドメイン一般化(DG)の新しいアプローチであるStyLIPを提案し、この問題に対処する。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚スタイルやコンテンツ情報を,ドメインに依存しないプロンプト学習戦略に重点を置いている。
そこで我々は,抽出したマルチスケールスタイルの特徴から,ドメイン固有のプロンプトトークンを直接学習する一連のスタイルプロジェクタを提案する。
これらの生成したプロンプト埋め込みは、その後、コンテンツプロジェクタが学習したマルチスケールのビジュアルコンテンツ機能と組み合わせられる。
プロジェクタは、CLIPの固定されたビジョンとテキストバックボーンを利用して、対照的な方法でトレーニングされる。
複数のベンチマークデータセット上で5つの異なるDG設定で実施された広範な実験を通じて、StyLIPが現在のSOTA(State-of-the-art)メソッドよりも優れていることを一貫して実証する。
関連論文リスト
- Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - CLAP: Isolating Content from Style through Contrastive Learning with
Augmented Prompts [12.838906765729748]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - C-SAW: Self-Supervised Prompt Learning for Image Generalization in
Remote Sensing [12.930814370829893]
本稿では,大規模事前学習型視覚言語モデル(VLM)であるCLIPを用いて,光学リモートセンシング画像の解析における領域およびクラス一般化問題に焦点をあてる。
既存のプロンプト学習技術は、ドメイン情報とコンテンツ情報をプロンプトに組み込むことの重要性を見落としている。
本稿では,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を保証するソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-27T13:35:20Z) - Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP [92.7485653161698]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - AD-CLIP: Adapting Domains in Prompt Space Using CLIP [13.915653907503463]
本稿では,CLIPのドメインに依存しないプロンプト学習戦略であるAD-CLIPを紹介する。
我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。
3つのベンチマークDAデータセットに対する実験により,既存の文献と比較してAD-CLIPの有効性が示された。
論文 参考訳(メタデータ) (2023-08-10T15:58:28Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。