論文の概要: Enhancing Vision-Language Models Generalization via Diversity-Driven Novel Feature Synthesis
- arxiv url: http://arxiv.org/abs/2405.02586v2
- Date: Tue, 13 Aug 2024 04:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 22:25:12.023957
- Title: Enhancing Vision-Language Models Generalization via Diversity-Driven Novel Feature Synthesis
- Title(参考訳): 多様性駆動型新規特徴合成によるビジョンランゲージモデルの一般化の促進
- Authors: Siyuan Yan, Cheng Luo, Zhen Yu, Zongyuan Ge,
- Abstract要約: LDFSと呼ばれる新しいドメイン特徴を合成するプラグイン・アンド・プレイ機能合成法を提案する。
LDFSは,これらのドメインからデータを収集することなく,未知のドメイン上でのCLIPの一般化能力の向上に優れていることを示す。
- 参考スコア(独自算出の注目度): 15.524484623950114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language foundation models like CLIP have shown impressive zero-shot generalization, but finetuning on downstream datasets can cause overfitting and loss of its generalization ability on unseen domains. Although collecting additional data from new domains of interest is possible, this method is often impractical due to the challenges in obtaining annotated data. To address this, we propose a plug-and-play feature synthesis method called LDFS (Language-Guided Diverse Feature Synthesis) to synthesize new domain features and improve existing CLIP fine-tuning strategies. LDFS has three main contributions: 1) To synthesize novel domain features and promote diversity, we propose an instance-conditional feature augmentation strategy based on a text-guided feature augmentation loss. 2) To maintain feature quality after augmenting, we introduce a pairwise regularizer to preserve augmented feature coherence within the CLIP feature space. 3) We propose to use stochastic text feature augmentation to reduce the modality gap and further facilitate the process of text-guided feature synthesis. Extensive experiments show LDFS superiority in improving CLIP generalization ability on unseen domains without collecting data from those domains. The code will be made publicly available.
- Abstract(参考訳): CLIPのような視覚言語基盤モデルは、印象的なゼロショットの一般化を示しているが、下流のデータセットの微調整は、その一般化能力の過度な適合と損失を引き起こす可能性がある。
新たな関心領域から付加的なデータを集めることは可能だが、注釈付きデータを取得することの難しさから、この手法は実用的ではないことが多い。
そこで本研究では,LDFS(Language-Guided Diverse Feature Synthesis)と呼ばれるプラグイン・アンド・プレイ機能合成手法を提案する。
LDFSの主な貢献は3つある。
1) 新しいドメイン特徴を合成し,多様性を促進するために,テキスト誘導機能拡張損失に基づくインスタンス条件特徴拡張戦略を提案する。
2) 拡張後の特徴量を維持するため,CLIP機能空間内の拡張的特徴コヒーレンスを維持するために,ペアワイズ正規化器を導入する。
3) モーダリティのギャップを減らし, テキスト誘導特徴合成のプロセスを容易にするために, 確率的テキスト特徴強調法を提案する。
拡張実験により、LDFSは、これらのドメインからデータを集めることなく、見えないドメインでCLIPの一般化能力を改善することができる。
コードは公開されます。
関連論文リスト
- VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。
提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。
結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文 参考訳(メタデータ) (2024-12-12T12:49:42Z) - DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - SF(DA)$^2$: Source-free Domain Adaptation Through the Lens of Data Augmentation [35.071201249725426]
データ拡張のレンズを通してのソースフリーなドメイン適応(SF(DA)$2$)を提案する。
提案手法は,2次元画像と3次元点クラウドデータセット,高度に不均衡なデータセットを含む,SFDAシナリオにおける優れた適応性能を示す。
論文 参考訳(メタデータ) (2024-03-16T07:05:47Z) - Beyond Finite Data: Towards Data-free Out-of-distribution Generalization
via Extrapolation [19.944946262284123]
ニューラルネットワークが人間のように外挿し、OODの一般化を実現するにはどうすればよいのか?
本稿では,大言語モデル(LLM)にカプセル化されている推論能力と広範な知識を活用して,完全に新しいドメインを合成する領域外挿手法を提案する。
提案手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1~2%超え, 評価可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-08T18:44:23Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - SYNC-CLIP: Synthetic Data Make CLIP Generalize Better in Data-Limited
Scenarios [12.087394117227632]
我々は、CLIPの一般化能力を高めるためにSynthetiCデータを活用するSynC-CLIPと呼ばれる革新的な手法を提案する。
オープンボキャブラリシナリオにおいて,11個のデータセットにまたがる新しいクラスにおいて,SynC-CLIPは,最先端の競合であるPromptSRCよりも平均3.0%向上していることを示す。
論文 参考訳(メタデータ) (2023-12-06T15:54:05Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。