Fugu-MT 論文翻訳(概要): Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language Models

論文の概要: Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language Models

arxiv url: http://arxiv.org/abs/2411.16018v1
Date: Mon, 25 Nov 2024 00:20:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.66209
Title: Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language Models
Title（参考訳）: Style-Pro: 一般化可能な視覚言語モデルのためのスタイルガイド型プロンプト学習
Authors: Niloufar Alipour Talemi, Hossein Kashiani, Fatemeh Afghah,
Abstract要約: Style-Proは、CLIPのゼロショット一般化能力を緩和し、保存する新しいプロンプト学習フレームワークである。 Style-Proは、ベース・ツー・ニューの一般化、クロス・データセットの転送、ドメインの一般化など、さまざまな設定における最先端のメソッドを一貫して上回っている。
参考スコア（独自算出の注目度）: 5.492174268132387
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained Vision-language (VL) models, such as CLIP, have shown significant generalization ability to downstream tasks, even with minimal fine-tuning. While prompt learning has emerged as an effective strategy to adapt pre-trained VL models for downstream tasks, current approaches frequently encounter severe overfitting to specific downstream data distributions. This overfitting constrains the original behavior of the VL models to generalize to new domains or unseen classes, posing a critical challenge in enhancing the adaptability and generalization of VL models. To address this limitation, we propose Style-Pro, a novel style-guided prompt learning framework that mitigates overfitting and preserves the zero-shot generalization capabilities of CLIP. Style-Pro employs learnable style bases to synthesize diverse distribution shifts, guided by two specialized loss functions that ensure style diversity and content integrity. Then, to minimize discrepancies between unseen domains and the source domain, Style-Pro maps the unseen styles into the known style representation space as a weighted combination of style bases. Moreover, to maintain consistency between the style-shifted prompted model and the original frozen CLIP, Style-Pro introduces consistency constraints to preserve alignment in the learned embeddings, minimizing deviation during adaptation to downstream tasks. Extensive experiments across 11 benchmark datasets demonstrate the effectiveness of Style-Pro, consistently surpassing state-of-the-art methods in various settings, including base-to-new generalization, cross-dataset transfer, and domain generalization.
Abstract（参考訳）: CLIPのような事前訓練されたビジョン言語(VL)モデルは、最小限の微調整でも、タスクをダウンストリームする大きな一般化能力を示している。即時学習は、トレーニング済みのVLモデルを下流タスクに適用するための効果的な戦略として現れてきたが、現在のアプローチでは、特定の下流データ分布に厳しいオーバーフィッティングが発生することが多い。このオーバーフィッティングは、VLモデルの本来の振る舞いを制約し、新しい領域や目に見えないクラスに一般化し、VLモデルの適応性と一般化を強化する上で重要な課題となる。この制限に対処するため、我々はCLIPのゼロショット一般化能力の過度な適合を緩和し、保存する新しいスタイル誘導型プロンプト学習フレームワークであるStyle-Proを提案する。 Style-Proは学習可能なスタイルベースを使用して、スタイルの多様性とコンテンツの完全性を保証する2つの特別な損失関数によって導かれる、多様な分散シフトを合成する。そして、未知のドメインとソースドメインの相違を最小限に抑えるために、Style-Proは、未知のスタイルを既知のスタイル表現空間に、スタイルベースを重み付けした組み合わせとしてマッピングする。さらに、スタイルシフトしたトリガモデルとオリジナルの凍結したCLIPとの一貫性を維持するために、Style-Proは、学習した埋め込みのアライメントを維持するために一貫性の制約を導入し、下流タスクへの適応時の偏差を最小限にする。 11のベンチマークデータセットにわたる大規模な実験は、ベース・ツー・ニューな一般化、クロス・データセットの転送、ドメインの一般化など、最先端のメソッドを一貫して超えるスタイルプロの有効性を示す。

関連論文リスト

DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。一般化を強化するために2つの補完正則化戦略を統合する。さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-26T00:14:52Z)
Casual Inference via Style Bias Deconfounding for Domain Generalization [28.866189619091227]
本稿では, 因果推論に基づく新しいフレームワークであるStyle Deconfounding Causal Learningを紹介する。提案手法は、ドメイン一般化問題に適した構造因果モデル(SCM)の構築から始まり、スタイルの影響を考慮に入れたバックドア調整戦略を適用する。この基礎の上に構築したSGEM(style-guided Expert Module)は,トレーニング中のスタイル分布を適応的にクラスタリングし,グローバルなコンバウンディングスタイルをキャプチャする。バックドア因果学習モジュール(BDCL)は特徴抽出中に因果介入を行い、グローバルな共起スタイルをサンプル予測に適切に統合し、スタイルバイアスを効果的に低減する。
論文参考訳（メタデータ） (2025-03-21T04:52:31Z)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。変分オートエンコーダを用いてクラス条件分布を学習する。このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文参考訳（メタデータ） (2024-07-22T16:51:28Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文参考訳（メタデータ） (2024-01-18T04:23:21Z)
Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文参考訳（メタデータ） (2023-11-28T05:17:25Z)
A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。トレーニングデータの多様性を高めるために,CPerbを提案する。
論文参考訳（メタデータ） (2023-08-02T03:16:12Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文参考訳（メタデータ） (2022-07-07T07:41:32Z)
Feature-based Style Randomization for Domain Generalization [27.15070576861912]
ドメイン一般化(Domain Generalization、DG)は、まず複数のソースドメイン上のジェネリックモデルを学習し、その後、追加の適応なしに任意の未確認ターゲットドメインに直接一般化することを目的としている。本稿では,機能レベルの拡張を実現するために,シンプルだが効果的な特徴ベーススタイルのランダム化モジュールを開発する。既存の画像レベルの拡張と比較して、我々の特徴レベルの拡張は、よりゴール指向でサンプルの多様性のある方法を好む。
論文参考訳（メタデータ） (2021-06-06T16:34:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。