論文の概要: Learning to Compose Soft Prompts for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2204.03574v3
- Date: Mon, 24 Apr 2023 15:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 00:34:47.783245
- Title: Learning to Compose Soft Prompts for Compositional Zero-Shot Learning
- Title(参考訳): 構成ゼロショット学習のためのソフトプロンプトの構成学習
- Authors: Nihal V. Nayak, Peilin Yu, Stephen H. Bach
- Abstract要約: 合成ソフトプロンプト(CSP)は、大規模事前学習型視覚言語モデル(VLM)のゼロショット合成性を改善するためのパラメータ効率のよい学習手法である。
我々は,未知の属性オブジェクト合成を予測するための合成ゼロショット学習のためのCSPを開発する。
CSPがベンチマークデータセットのCLIPを平均10.9ポイント上回っていることを示す。
- 参考スコア(独自算出の注目度): 9.55910322481318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce compositional soft prompting (CSP), a parameter-efficient
learning technique to improve the zero-shot compositionality of large-scale
pretrained vision-language models (VLMs) like CLIP. We develop CSP for
compositional zero-shot learning, the task of predicting unseen
attribute-object compositions (e.g., old cat and young tiger). VLMs have a
flexible text encoder that can represent arbitrary classes as natural language
prompts but they often underperform task-specific architectures on the
compositional zero-shot benchmark datasets. CSP treats the attributes and
objects that define classes as learnable tokens of vocabulary. During training,
the vocabulary is tuned to recognize classes that compose tokens in multiple
ways (e.g., old cat and white cat). At test time, we recompose the learned
attribute-object vocabulary in new combinations to recognize novel classes. We
show that CSP outperforms the CLIP on benchmark datasets by an average of 10.9
percentage points on AUC. CSP also outperforms CoOp, a soft prompting method
that fine-tunes the prefix context tokens, by an average of 5.8 percentage
points on AUC. We perform additional experiments to show that CSP improves
generalization to higher-order attribute-attribute-object compositions (e.g.,
old white cat) and combinations of pretrained attributes and fine-tuned
objects. The code is available at https://github.com/BatsResearch/csp.
- Abstract(参考訳): CLIPのような大規模事前学習型視覚言語モデル(VLM)のゼロショット合成性を改善するために,パラメータ効率のよい学習手法であるコンポジションソフトプロンプト(CSP)を導入する。
我々は,無知覚属性-対象合成(例えば,老猫と若トラ)の予測タスクである構成的ゼロショット学習のためのcspを開発した。
VLMは、任意のクラスを自然言語のプロンプトとして表現できるフレキシブルなテキストエンコーダを持つが、合成ゼロショットベンチマークデータセット上でタスク固有のアーキテクチャを過小評価することが多い。
cspは、クラスを語彙の学習可能なトークンとして定義する属性とオブジェクトを扱う。
訓練中、語彙は複数の方法でトークンを構成するクラス(例えば、古猫と白猫)を認識するように調整される。
テスト時に,学習した属性オブジェクトの語彙を新しい組み合わせに分解し,新しいクラスを認識する。
CSPがベンチマークデータセットのCLIPを平均10.9ポイント上回っていることを示す。
cspはまた、プレフィックスコンテキストトークンをaucで平均5.8パーセンテージで微調整するソフトプロンプトメソッドであるcoopを上回っている。
cspが高次属性属性属性オブジェクト合成(例えば、オールド・ホワイト・キャット)と事前訓練された属性と微調整されたオブジェクトの組み合わせへの一般化を改善することを示す追加実験を行う。
コードはhttps://github.com/batsresearch/cspで入手できる。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。
APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-24T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。