論文の概要: Generalizing CLIP to Unseen Domain via Text-Guided Diverse Novel Feature Synthesis
- arxiv url: http://arxiv.org/abs/2405.02586v1
- Date: Sat, 4 May 2024 06:53:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 19:20:44.591842
- Title: Generalizing CLIP to Unseen Domain via Text-Guided Diverse Novel Feature Synthesis
- Title(参考訳): テキスト誘導多言語特徴合成によるCLIPの未確認領域への一般化
- Authors: Siyuan Yan, Cheng Luo, Zhen Yu, Zongyuan Ge,
- Abstract要約: CLIPのような視覚言語基盤モデルは、印象的なゼロショットの一般化を示しているが、下流のデータセットの微調整は、その一般化能力の過度な適合と損失を引き起こす可能性がある。
我々はLDFSと呼ばれるプラグイン・アンド・プレイ機能拡張手法を提案し、新しいドメイン機能を合成し、既存のCLIPファインチューニング戦略を改善する。
- 参考スコア(独自算出の注目度): 15.524484623950114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language foundation models like CLIP have shown impressive zero-shot generalization, but finetuning on downstream datasets can cause overfitting and loss of its generalization ability on unseen domains. Although collecting additional data from new domains of interest is possible, this method is often impractical due to the challenges in obtaining annotated data. To address this, we propose a plug-and-play feature augmentation method called LDFS (Language-Guided Diverse Feature Synthesis) to synthesize new domain features and improve existing CLIP fine-tuning strategies. LDFS has three main contributions: 1) To synthesize novel domain features and promote diversity, we propose an instance-conditional feature augmentation strategy based on a textguided feature augmentation loss. 2) To maintain feature quality after augmenting, we introduce a pairwise regularizer to preserve augmented feature coherence within the CLIP feature space. 3) We propose to use stochastic text feature augmentation to reduce the modality gap and further facilitate the process of text-guided feature synthesis. Extensive experiments show LDFS superiority in improving CLIP generalization ability on unseen domains without collecting data from those domains. The code will be made publicly available.
- Abstract(参考訳): CLIPのような視覚言語基盤モデルは、印象的なゼロショットの一般化を示しているが、下流のデータセットの微調整は、その一般化能力の過度な適合と損失を引き起こす可能性がある。
新たな関心領域から付加的なデータを集めることは可能だが、注釈付きデータを取得することの難しさから、この手法は実用的ではないことが多い。
そこで我々はLDFS(Language-Guided Diverse Feature Synthesis)と呼ばれるプラグイン・アンド・プレイ機能拡張手法を提案する。
LDFSの主な貢献は3つある。
1) 新しいドメイン特徴を合成し,多様性を促進するために,テキスト誘導機能拡張損失に基づくインスタンス条件特徴拡張戦略を提案する。
2) 拡張後の特徴量を維持するため,CLIP機能空間内の拡張的特徴コヒーレンスを維持するために,ペアワイズ正規化器を導入する。
3) モーダリティのギャップを減らし, テキスト誘導特徴合成のプロセスを容易にするために, 確率的テキスト特徴強調法を提案する。
拡張実験により、LDFSは、これらのドメインからデータを集めることなく、見えないドメインでCLIPの一般化能力を改善することができる。
コードは公開されます。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - SF(DA)$^2$: Source-free Domain Adaptation Through the Lens of Data Augmentation [35.071201249725426]
データ拡張のレンズを通してのソースフリーなドメイン適応(SF(DA)$2$)を提案する。
提案手法は,2次元画像と3次元点クラウドデータセット,高度に不均衡なデータセットを含む,SFDAシナリオにおける優れた適応性能を示す。
論文 参考訳(メタデータ) (2024-03-16T07:05:47Z) - Beyond Finite Data: Towards Data-free Out-of-distribution Generalization
via Extrapolation [19.944946262284123]
ニューラルネットワークが人間のように外挿し、OODの一般化を実現するにはどうすればよいのか?
本稿では,大言語モデル(LLM)にカプセル化されている推論能力と広範な知識を活用して,完全に新しいドメインを合成する領域外挿手法を提案する。
提案手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1~2%超え, 評価可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-08T18:44:23Z) - SYNC-CLIP: Synthetic Data Make CLIP Generalize Better in Data-Limited
Scenarios [12.087394117227632]
我々は、CLIPの一般化能力を高めるためにSynthetiCデータを活用するSynC-CLIPと呼ばれる革新的な手法を提案する。
オープンボキャブラリシナリオにおいて,11個のデータセットにまたがる新しいクラスにおいて,SynC-CLIPは,最先端の競合であるPromptSRCよりも平均3.0%向上していることを示す。
論文 参考訳(メタデータ) (2023-12-06T15:54:05Z) - TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing [8.830873674673828]
既存の方法は、様々な訓練領域からドメイン不変の特徴を抽出することを目的としている。
抽出された特徴は、必然的に残差スタイルの特徴バイアスを含んでおり、その結果、一般化性能が劣る。
本稿では,テキスト情報をドメイン間アライメントに有効活用するテキストガイド型ドメイン一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:13:46Z) - Unsupervised Domain Adaptation via Style-Aware Self-intermediate Domain [52.08301776698373]
非教師なしドメイン適応(UDA)は、ラベル豊富なソースドメインから関連するがラベルのないターゲットドメインに知識を伝達する、かなりの注目を集めている。
本研究では,大規模なドメインギャップと伝達知識を橋渡しし,クラス非ネイティブ情報の損失を軽減するために,SAFF(style-aware feature fusion)法を提案する。
論文 参考訳(メタデータ) (2022-09-05T10:06:03Z) - Calibrated Feature Decomposition for Generalizable Person
Re-Identification [82.64133819313186]
Calibrated Feature Decomposition (CFD)モジュールは、人物の再識別の一般化能力の向上に焦点を当てている。
キャリブレーション・アンド・スタンダード化されたバッチ正規化(CSBN)は、キャリブレーションされた人物表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-11-27T17:12:43Z) - Feature Stylization and Domain-aware Contrastive Learning for Domain
Generalization [10.027279853737511]
ドメインの一般化は、ターゲットドメインにアクセスすることなく、ドメインシフトに対するモデルを強化することを目的としている。
本稿では,特徴統計を利用して特徴を新しいドメイン特性に分類する新しいフレームワークを提案する。
提案したドメイン認識による教師付きコントラスト損失との特徴的整合性を実現する。
論文 参考訳(メタデータ) (2021-08-19T10:04:01Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。