論文の概要: SYNC-CLIP: Synthetic Data Make CLIP Generalize Better in Data-Limited
Scenarios
- arxiv url: http://arxiv.org/abs/2312.03805v1
- Date: Wed, 6 Dec 2023 15:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:12:28.253783
- Title: SYNC-CLIP: Synthetic Data Make CLIP Generalize Better in Data-Limited
Scenarios
- Title(参考訳): SynC-CLIP: CLIPをデータ制限シナリオで一般化する合成データ
- Authors: Mushui Liu and Weijie He and Ziqian Lu and Yunlong Yu
- Abstract要約: 我々は、CLIPの一般化能力を高めるためにSynthetiCデータを活用するSynC-CLIPと呼ばれる革新的な手法を提案する。
オープンボキャブラリシナリオにおいて,11個のデータセットにまたがる新しいクラスにおいて,SynC-CLIPは,最先端の競合であるPromptSRCよりも平均3.0%向上していることを示す。
- 参考スコア(独自算出の注目度): 12.087394117227632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning is a powerful technique for transferring Vision-Language
Models (VLMs) such as CLIP to downstream tasks. However, the prompt-based
methods that are fine-tuned solely with base classes may struggle to generalize
to novel classes in open-vocabulary scenarios, especially when data are
limited. To address this issue, we propose an innovative approach called
SYNC-CLIP that leverages SYNthetiC data for enhancing the generalization
capability of CLIP. Based on the observation of the distribution shift between
the real and synthetic samples, we treat real and synthetic samples as distinct
domains and propose to optimize separate domain prompts to capture
domain-specific information, along with the shared visual prompts to preserve
the semantic consistency between two domains. By aligning the cross-domain
features, the synthetic data from novel classes can provide implicit guidance
to rebalance the decision boundaries. Experimental results on three model
generalization tasks demonstrate that our method performs very competitively
across various benchmarks. Notably, SYNC-CLIP outperforms the state-of-the-art
competitor PromptSRC by an average improvement of 3.0% on novel classes across
11 datasets in open-vocabulary scenarios.
- Abstract(参考訳): Prompt Learningは、CLIPのようなビジョン言語モデル(VLM)を下流タスクに転送する強力なテクニックである。
しかし、ベースクラスのみに微調整されたプロンプトベースのメソッドは、特にデータが制限された場合に、オープン語彙のシナリオで新しいクラスに一般化するのに苦労する可能性がある。
本稿では,CLIPの一般化能力を高めるためにSynthetiCデータを活用するSynC-CLIPという革新的な手法を提案する。
実検体と合成検体間の分布シフトの観察に基づいて,実検体と合成検体を異なる領域として扱い,ドメイン固有情報を取り込むための個別のドメインプロンプトと,2つの領域間の意味的一貫性を保つための共有ビジュアルプロンプトを提案する。
クロスドメインの機能を調整することにより、新しいクラスからの合成データは、決定境界を再バランスするための暗黙のガイダンスを提供することができる。
3つのモデル一般化タスクの実験結果から,本手法は様々なベンチマークにおいて非常に高い競合性を示す。
特に、SynC-CLIPは、最先端の競合であるPromptSRCよりも、オープン語彙シナリオの11データセットにわたる新しいクラスの平均3.0%向上している。
関連論文リスト
- Enhancing Vision-Language Models Generalization via Diversity-Driven Novel Feature Synthesis [15.524484623950114]
LDFSと呼ばれる新しいドメイン特徴を合成するプラグイン・アンド・プレイ機能合成法を提案する。
LDFSは,これらのドメインからデータを収集することなく,未知のドメイン上でのCLIPの一般化能力の向上に優れていることを示す。
論文 参考訳(メタデータ) (2024-05-04T06:53:18Z) - Instance Adaptive Prototypical Contrastive Embedding for Generalized
Zero Shot Learning [11.720039414872296]
一般的なゼロショット学習は、トレーニング中に目に見えないラベルがアクセスできないと仮定して、目に見えないラベルと見えないラベルからサンプルを分類することを目的としている。
GZSLの最近の進歩は、生成ネットワークにコントラッシブラーニングベースの埋め込みを組み込むことによって、加速している。
論文 参考訳(メタデータ) (2023-09-13T14:26:03Z) - MoP-CLIP: A Mixture of Prompt-Tuned CLIP Models for Domain Incremental
Learning [12.737883740101438]
本稿では,プロンプト調整型CLIPモデル(MoP-CLIP)を用いた新しいDIL手法を提案する。
トレーニング段階では、各ドメインの各クラスの特徴分布をモデル化し、個々のテキストと視覚的プロンプトを学習して、特定のドメインに適応させます。
学習した分布は、与えられたテストサンプルが既知のドメインに属しているかどうかを識別し、分類タスクの正しいプロンプトを選択する。
論文 参考訳(メタデータ) (2023-07-11T18:17:50Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Federated Learning with GAN-based Data Synthesis for Non-IID Clients [8.304185807036783]
フェデレートラーニング(FL)は、最近、プライバシ保護のためのコラボレーティブラーニングパラダイムとして人気を博している。
我々は,合成データを共有することで,この非IID課題を解決するために,SDA-FL(Synthetic Data Aided Federated Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-11T11:43:25Z) - Multi-level Consistency Learning for Semi-supervised Domain Adaptation [85.90600060675632]
半教師付きドメイン適応(SSDA)は、完全にラベル付けされたソースドメインから学習した知識をわずかにラベル付けされたターゲットドメインに適用することを目的としている。
SSDAのための多レベル一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-09T06:41:18Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。
そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。
提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-06-07T08:38:41Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。