論文の概要: Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.16018v1
- Date: Mon, 25 Nov 2024 00:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:42.218473
- Title: Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language Models
- Title(参考訳): Style-Pro: 一般化可能な視覚言語モデルのためのスタイルガイド型プロンプト学習
- Authors: Niloufar Alipour Talemi, Hossein Kashiani, Fatemeh Afghah,
- Abstract要約: Style-Proは、CLIPのゼロショット一般化能力を緩和し、保存する新しいプロンプト学習フレームワークである。
Style-Proは、ベース・ツー・ニューの一般化、クロス・データセットの転送、ドメインの一般化など、さまざまな設定における最先端のメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 5.492174268132387
- License:
- Abstract: Pre-trained Vision-language (VL) models, such as CLIP, have shown significant generalization ability to downstream tasks, even with minimal fine-tuning. While prompt learning has emerged as an effective strategy to adapt pre-trained VL models for downstream tasks, current approaches frequently encounter severe overfitting to specific downstream data distributions. This overfitting constrains the original behavior of the VL models to generalize to new domains or unseen classes, posing a critical challenge in enhancing the adaptability and generalization of VL models. To address this limitation, we propose Style-Pro, a novel style-guided prompt learning framework that mitigates overfitting and preserves the zero-shot generalization capabilities of CLIP. Style-Pro employs learnable style bases to synthesize diverse distribution shifts, guided by two specialized loss functions that ensure style diversity and content integrity. Then, to minimize discrepancies between unseen domains and the source domain, Style-Pro maps the unseen styles into the known style representation space as a weighted combination of style bases. Moreover, to maintain consistency between the style-shifted prompted model and the original frozen CLIP, Style-Pro introduces consistency constraints to preserve alignment in the learned embeddings, minimizing deviation during adaptation to downstream tasks. Extensive experiments across 11 benchmark datasets demonstrate the effectiveness of Style-Pro, consistently surpassing state-of-the-art methods in various settings, including base-to-new generalization, cross-dataset transfer, and domain generalization.
- Abstract(参考訳): CLIPのような事前訓練されたビジョン言語(VL)モデルは、最小限の微調整でも、タスクをダウンストリームする大きな一般化能力を示している。
即時学習は、トレーニング済みのVLモデルを下流タスクに適用するための効果的な戦略として現れてきたが、現在のアプローチでは、特定の下流データ分布に厳しいオーバーフィッティングが発生することが多い。
このオーバーフィッティングは、VLモデルの本来の振る舞いを制約し、新しい領域や目に見えないクラスに一般化し、VLモデルの適応性と一般化を強化する上で重要な課題となる。
この制限に対処するため、我々はCLIPのゼロショット一般化能力の過度な適合を緩和し、保存する新しいスタイル誘導型プロンプト学習フレームワークであるStyle-Proを提案する。
Style-Proは学習可能なスタイルベースを使用して、スタイルの多様性とコンテンツの完全性を保証する2つの特別な損失関数によって導かれる、多様な分散シフトを合成する。
そして、未知のドメインとソースドメインの相違を最小限に抑えるために、Style-Proは、未知のスタイルを既知のスタイル表現空間に、スタイルベースを重み付けした組み合わせとしてマッピングする。
さらに、スタイルシフトしたトリガモデルとオリジナルの凍結したCLIPとの一貫性を維持するために、Style-Proは、学習した埋め込みのアライメントを維持するために一貫性の制約を導入し、下流タスクへの適応時の偏差を最小限にする。
11のベンチマークデータセットにわたる大規模な実験は、ベース・ツー・ニューな一般化、クロス・データセットの転送、ドメインの一般化など、最先端のメソッドを一貫して超えるスタイルプロの有効性を示す。
関連論文リスト
- CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。
トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。
トレーニングデータの多様性を高めるために,CPerbを提案する。
論文 参考訳(メタデータ) (2023-08-02T03:16:12Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z) - Feature-based Style Randomization for Domain Generalization [27.15070576861912]
ドメイン一般化(Domain Generalization、DG)は、まず複数のソースドメイン上のジェネリックモデルを学習し、その後、追加の適応なしに任意の未確認ターゲットドメインに直接一般化することを目的としている。
本稿では,機能レベルの拡張を実現するために,シンプルだが効果的な特徴ベーススタイルのランダム化モジュールを開発する。
既存の画像レベルの拡張と比較して、我々の特徴レベルの拡張は、よりゴール指向でサンプルの多様性のある方法を好む。
論文 参考訳(メタデータ) (2021-06-06T16:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。