Fugu-MT 論文翻訳(概要): StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based Domain Generalization

論文の概要: StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based Domain Generalization

arxiv url: http://arxiv.org/abs/2302.09251v3
Date: Tue, 28 Nov 2023 07:45:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 03:58:38.446687
Title: StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based Domain Generalization
Title（参考訳）: StyLIP: CLIPベースのドメイン一般化のためのマルチスケールスタイルのプロンプト学習
Authors: Shirsha Bose, Ankit Jha, Enrico Fini, Mainak Singha, Elisa Ricci, Biplab Banerjee
Abstract要約: StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
参考スコア（独自算出の注目度）: 26.08922351077744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale foundation models, such as CLIP, have demonstrated impressive zero-shot generalization performance on downstream tasks, leveraging well-designed language prompts. However, these prompt learning techniques often struggle with domain shift, limiting their generalization capabilities. In our study, we tackle this issue by proposing StyLIP, a novel approach for Domain Generalization (DG) that enhances CLIP's classification performance across domains. Our method focuses on a domain-agnostic prompt learning strategy, aiming to disentangle the visual style and content information embedded in CLIP's pre-trained vision encoder, enabling effortless adaptation to novel domains during inference. To achieve this, we introduce a set of style projectors that directly learn the domain-specific prompt tokens from the extracted multi-scale style features. These generated prompt embeddings are subsequently combined with the multi-scale visual content features learned by a content projector. The projectors are trained in a contrastive manner, utilizing CLIP's fixed vision and text backbones. Through extensive experiments conducted in five different DG settings on multiple benchmark datasets, we consistently demonstrate that StyLIP outperforms the current state-of-the-art (SOTA) methods.
Abstract（参考訳）: CLIPのような大規模ファウンデーションモデルは、よく設計された言語プロンプトを活用して、下流タスクで印象的なゼロショットの一般化性能を示した。しかし、これらの即興学習技術は、しばしばドメインシフトに苦しめられ、一般化能力が制限される。本研究では、ドメイン間の分類性能を高めるドメイン一般化(DG)の新しいアプローチであるStyLIPを提案し、この問題に対処する。提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚スタイルやコンテンツ情報を,ドメインに依存しないプロンプト学習戦略に重点を置いている。そこで我々は,抽出したマルチスケールスタイルの特徴から,ドメイン固有のプロンプトトークンを直接学習する一連のスタイルプロジェクタを提案する。これらの生成したプロンプト埋め込みは、その後、コンテンツプロジェクタが学習したマルチスケールのビジュアルコンテンツ機能と組み合わせられる。プロジェクタは、CLIPの固定されたビジョンとテキストバックボーンを利用して、対照的な方法でトレーニングされる。複数のベンチマークデータセット上で5つの異なるDG設定で実施された広範な実験を通じて、StyLIPが現在のSOTA(State-of-the-art)メソッドよりも優れていることを一貫して実証する。

関連論文リスト

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。 LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
In the Era of Prompt Learning with Vision-Language Models [1.060608983034705]
ドメイン一般化のためのドメインに依存しない新しい学習戦略であるtextscStyLIP を紹介する。 StyLIPは、スタイルプロジェクタを使用してドメイン固有のプロンプトトークンを学習することで、CLIPsビジョンエンコーダの視覚スタイルとコンテンツを切り離す。また,CLIPの凍結視覚バックボーンを利用した非教師なし領域適応(DA)のためのAD-CLIPを提案する。
論文参考訳（メタデータ） (2024-11-07T17:31:21Z)
CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文参考訳（メタデータ） (2024-03-21T11:58:50Z)
Concept-Guided Prompt Learning for Generalization in Vision-Language Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。 Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文参考訳（メタデータ） (2024-01-15T04:04:47Z)
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。 UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-12T06:35:09Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文参考訳（メタデータ） (2023-11-28T03:00:59Z)
C-SAW: Self-Supervised Prompt Learning for Image Generalization in Remote Sensing [12.930814370829893]
本稿では,大規模事前学習型視覚言語モデル(VLM)であるCLIPを用いて,光学リモートセンシング画像の解析における領域およびクラス一般化問題に焦点をあてる。既存のプロンプト学習技術は、ドメイン情報とコンテンツ情報をプロンプトに組み込むことの重要性を見落としている。本稿では,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を保証するソリューションを提案する。
論文参考訳（メタデータ） (2023-11-27T13:35:20Z)
GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文参考訳（メタデータ） (2023-03-16T12:06:02Z)
Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文参考訳（メタデータ） (2023-03-16T09:51:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。