論文の概要: Learning to Compose Soft Prompts for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2204.03574v1
- Date: Thu, 7 Apr 2022 16:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 13:04:32.840405
- Title: Learning to Compose Soft Prompts for Compositional Zero-Shot Learning
- Title(参考訳): 構成ゼロショット学習のためのソフトプロンプトの構成学習
- Authors: Nihal V. Nayak, Peilin Yu, Stephen H. Bach
- Abstract要約: 視覚言語モデル(VLM)のゼロショット合成性を改善するために、合成ソフトプロンプト(CSP)を導入する。
クラスを語彙の学習可能なトークンとして定義するために構成される属性やオブジェクトを扱い、それらを複数のプロンプトコンポジションでチューニングする。
推論中、学習された属性オブジェクトの語彙を新しい組み合わせで再合成し、CSPがベンチマークデータセット上で、平均14.7パーセントの精度で元のVLMより優れていることを示す。
- 参考スコア(独自算出の注目度): 9.55910322481318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce compositional soft prompting (CSP), a parameter-efficient
learning technique to improve the zero-shot compositionality of large-scale
pretrained vision-language models (VLMs) without the overhead of fine-tuning
the entire model. VLMs can represent arbitrary classes as natural language
prompts in their flexible text encoders but they underperform state-of-the-art
methods on compositional zero-shot benchmark tasks. To improve VLMs, we propose
a novel form of soft prompting. We treat the attributes and objects that are
composed to define classes as learnable tokens of vocabulary and tune them on
multiple prompt compositions. During inference, we recompose the learned
attribute-object vocabulary in new combinations and show that CSP outperforms
the original VLM on benchmark datasets by an average of 14.7 percentage points
of accuracy. CSP also achieves new state-of-the-art accuracies on two out of
three benchmark datasets, while only fine-tuning a small number of parameters.
Further, we show that CSP improves generalization to higher-order
attribute-attribute-object compositions and combinations of pretrained
attributes and fine-tuned objects.
- Abstract(参考訳): 本稿では,大規模事前学習型視覚言語モデル(VLM)のゼロショット合成性を改善するためのパラメータ効率の学習手法であるコンポジションソフトプロンプト(CSP)を導入する。
VLMは、フレキシブルテキストエンコーダの自然言語プロンプトとして任意のクラスを表現できるが、合成ゼロショットベンチマークタスクにおいて最先端のメソッドを実行する。
VLMを改善するために,新しいソフトプロンプト方式を提案する。
クラスを語彙の学習可能なトークンとして定義するために構成される属性やオブジェクトを扱い、それらを複数のプロンプトコンポジションでチューニングする。
推論中、学習した属性オブジェクトの語彙を新しい組み合わせで再合成し、CSPがベンチマークデータセット上で平均14.7%の精度で元のVLMより優れていることを示す。
cspはまた、3つのベンチマークデータセットのうち2つで新しい最先端の精度を実現している。
さらに, CSPは, 高次属性属性-属性-オブジェクト合成への一般化と事前学習属性と微調整オブジェクトの組み合わせを改善した。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。
APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-24T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。