Fugu-MT 論文翻訳(概要): Generalizing CLIP to Unseen Domain via Text-Guided Diverse Novel Feature Synthesis

論文の概要: Generalizing CLIP to Unseen Domain via Text-Guided Diverse Novel Feature Synthesis

arxiv url: http://arxiv.org/abs/2405.02586v1
Date: Sat, 4 May 2024 06:53:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 19:20:44.591842
Title: Generalizing CLIP to Unseen Domain via Text-Guided Diverse Novel Feature Synthesis
Title（参考訳）: テキスト誘導多言語特徴合成によるCLIPの未確認領域への一般化
Authors: Siyuan Yan, Cheng Luo, Zhen Yu, Zongyuan Ge,
Abstract要約: CLIPのような視覚言語基盤モデルは、印象的なゼロショットの一般化を示しているが、下流のデータセットの微調整は、その一般化能力の過度な適合と損失を引き起こす可能性がある。我々はLDFSと呼ばれるプラグイン・アンド・プレイ機能拡張手法を提案し、新しいドメイン機能を合成し、既存のCLIPファインチューニング戦略を改善する。
参考スコア（独自算出の注目度）: 15.524484623950114
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language foundation models like CLIP have shown impressive zero-shot generalization, but finetuning on downstream datasets can cause overfitting and loss of its generalization ability on unseen domains. Although collecting additional data from new domains of interest is possible, this method is often impractical due to the challenges in obtaining annotated data. To address this, we propose a plug-and-play feature augmentation method called LDFS (Language-Guided Diverse Feature Synthesis) to synthesize new domain features and improve existing CLIP fine-tuning strategies. LDFS has three main contributions: 1) To synthesize novel domain features and promote diversity, we propose an instance-conditional feature augmentation strategy based on a textguided feature augmentation loss. 2) To maintain feature quality after augmenting, we introduce a pairwise regularizer to preserve augmented feature coherence within the CLIP feature space. 3) We propose to use stochastic text feature augmentation to reduce the modality gap and further facilitate the process of text-guided feature synthesis. Extensive experiments show LDFS superiority in improving CLIP generalization ability on unseen domains without collecting data from those domains. The code will be made publicly available.
Abstract（参考訳）: CLIPのような視覚言語基盤モデルは、印象的なゼロショットの一般化を示しているが、下流のデータセットの微調整は、その一般化能力の過度な適合と損失を引き起こす可能性がある。新たな関心領域から付加的なデータを集めることは可能だが、注釈付きデータを取得することの難しさから、この手法は実用的ではないことが多い。そこで我々はLDFS(Language-Guided Diverse Feature Synthesis)と呼ばれるプラグイン・アンド・プレイ機能拡張手法を提案する。 LDFSの主な貢献は3つある。 1) 新しいドメイン特徴を合成し,多様性を促進するために,テキスト誘導機能拡張損失に基づくインスタンス条件特徴拡張戦略を提案する。 2) 拡張後の特徴量を維持するため,CLIP機能空間内の拡張的特徴コヒーレンスを維持するために,ペアワイズ正規化器を導入する。 3) モーダリティのギャップを減らし, テキスト誘導特徴合成のプロセスを容易にするために, 確率的テキスト特徴強調法を提案する。拡張実験により、LDFSは、これらのドメインからデータを集めることなく、見えないドメインでCLIPの一般化能力を改善することができる。コードは公開されます。

関連論文リスト

Text-Driven Causal Representation Learning for Source-Free Domain Generalization [82.75041792888274]
我々は、ソースフリー領域一般化設定に因果推論を統合する最初の方法であるTDCRLを提案する。我々のアプローチは、堅牢でドメイン不変な特徴を達成するための明確で効果的なメカニズムを提供し、堅牢な一般化を保証する。
論文参考訳（メタデータ） (2025-07-14T06:20:42Z)
Robust Federated Learning on Edge Devices with Domain Heterogeneity [13.362209980631876]
Federated Learning (FL)は、分散エッジデバイス間のデータプライバシを確保しながら、協調的なトレーニングを可能にする。本稿では,FLグローバルモデルの一般化能力を向上させることにより,この問題に対処する新しいフレームワークを提案する。特徴の多様性とモデルロバスト性を高めるために,プロトタイプベースのFLフレームワークであるFedAPCを紹介する。
論文参考訳（メタデータ） (2025-05-15T09:53:14Z)
Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文参考訳（メタデータ） (2025-03-17T18:08:03Z)
VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文参考訳（メタデータ） (2024-12-12T12:49:42Z)
DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文参考訳（メタデータ） (2024-11-16T03:52:23Z)
Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文参考訳（メタデータ） (2024-10-03T08:27:54Z)
A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。 GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文参考訳（メタデータ） (2024-06-19T22:30:08Z)
StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文参考訳（メタデータ） (2024-06-01T02:41:34Z)
SF(DA)$^2$: Source-free Domain Adaptation Through the Lens of Data Augmentation [35.071201249725426]
データ拡張のレンズを通してのソースフリーなドメイン適応(SF(DA)$2$)を提案する。提案手法は,2次元画像と3次元点クラウドデータセット,高度に不均衡なデータセットを含む,SFDAシナリオにおける優れた適応性能を示す。
論文参考訳（メタデータ） (2024-03-16T07:05:47Z)
Beyond Finite Data: Towards Data-free Out-of-distribution Generalization via Extrapolation [19.944946262284123]
ニューラルネットワークが人間のように外挿し、OODの一般化を実現するにはどうすればよいのか? 本稿では,大言語モデル(LLM)にカプセル化されている推論能力と広範な知識を活用して,完全に新しいドメインを合成する領域外挿手法を提案する。提案手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1～2%超え, 評価可能な性能を示す。
論文参考訳（メタデータ） (2024-03-08T18:44:23Z)
Deep Common Feature Mining for Efficient Video Semantic Segmentation [29.054945307605816]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。 DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。本手法は精度と効率のバランスが優れていることを示す。
論文参考訳（メタデータ） (2024-03-05T06:17:59Z)
SYNC-CLIP: Synthetic Data Make CLIP Generalize Better in Data-Limited Scenarios [12.087394117227632]
我々は、CLIPの一般化能力を高めるためにSynthetiCデータを活用するSynC-CLIPと呼ばれる革新的な手法を提案する。オープンボキャブラリシナリオにおいて,11個のデータセットにまたがる新しいクラスにおいて,SynC-CLIPは,最先端の競合であるPromptSRCよりも平均3.0%向上していることを示す。
論文参考訳（メタデータ） (2023-12-06T15:54:05Z)
GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-05T04:04:37Z)
Global Context-Aware Progressive Aggregation Network for Salient Object Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T04:26:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。