論文の概要: Improving Zero-Shot Generalization for CLIP with Synthesized Prompts
- arxiv url: http://arxiv.org/abs/2307.07397v1
- Date: Fri, 14 Jul 2023 15:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:34:07.022822
- Title: Improving Zero-Shot Generalization for CLIP with Synthesized Prompts
- Title(参考訳): 合成プロンプトによるCLIPのゼロショット一般化の改善
- Authors: Zhengbo Wang, Jian Liang, Ran He, Nan Xu, Zilei Wang, Tieniu Tan
- Abstract要約: 既存のほとんどのメソッドは、実世界のアプリケーションでは保持できない全てのクラスにラベル付きデータを必要とする。
既存の微調整法を改善するために,textbfSynttextbfHestextbfIzed textbfPrompts(textbfSHIP)と呼ばれるプラグアンドプレイ生成手法を提案する。
- 参考スコア(独自算出の注目度): 135.4317555866831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing interest in pretrained vision-language models like CLIP,
recent research has focused on adapting these models to downstream tasks.
Despite achieving promising results, most existing methods require labeled data
for all classes, which may not hold in real-world applications due to the long
tail and Zipf's law. For example, some classes may lack labeled data entirely,
such as emerging concepts. To address this problem, we propose a plug-and-play
generative approach called \textbf{S}ynt\textbf{H}es\textbf{I}zed
\textbf{P}rompts~(\textbf{SHIP}) to improve existing fine-tuning methods.
Specifically, we follow variational autoencoders to introduce a generator that
reconstructs the visual features by inputting the synthesized prompts and the
corresponding class names to the textual encoder of CLIP. In this manner, we
easily obtain the synthesized features for the remaining label-only classes.
Thereafter, we fine-tune CLIP with off-the-shelf methods by combining labeled
and synthesized features. Extensive experiments on base-to-new generalization,
cross-dataset transfer learning, and generalized zero-shot learning demonstrate
the superiority of our approach. The code is available at
\url{https://github.com/mrflogs/SHIP}.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデルへの関心が高まり、最近の研究は、これらのモデルを下流タスクに適応することに焦点を当てている。
有望な結果を得たにもかかわらず、ほとんどの既存のメソッドは全てのクラスに対してラベル付きデータを必要とし、ロングテールとzipfの法則のため実世界のアプリケーションでは保持されない。
例えば、新しい概念のようなラベル付きデータを完全に欠くクラスもある。
この問題に対処するため,既存の微調整法を改善するために, プラグアンドプレイ生成手法である \textbf{S}ynt\textbf{H}es\textbf{I}zed \textbf{P}rompts~(\textbf{SHIP})を提案する。
具体的には,可変オートエンコーダに従い,合成されたプロンプトと対応するクラス名をクリップのテキストエンコーダに入力して視覚特徴を再構成するジェネレータを導入する。
このようにして、残りのラベルのみのクラスに対する合成特徴を容易に得る。
その後,ラベル付きおよび合成された特徴を組み合わせることで,市販のCLIPを微調整する。
ベース・ツー・ニュー一般化、クロスデータセット転送学習、一般化ゼロショット学習に関する広範な実験は、このアプローチの優位性を示している。
コードは \url{https://github.com/mrflogs/ship} で入手できる。
関連論文リスト
- Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Semantic Residual Prompts for Continual Learning [21.986800282078498]
提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
論文 参考訳(メタデータ) (2024-03-11T16:23:38Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for
Open-Vocabulary Object Detection [7.122652901894367]
Open-vocabulary Object Detection (OVOD)は、トレーニングセットにカテゴリが含まれていない新しいオブジェクトを認識することを目的としている。
本稿では,新しいクラス全体の分布を一般化する手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T13:45:56Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。