論文の概要: Learning to Compose Soft Prompts for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2204.03574v3
- Date: Mon, 24 Apr 2023 15:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 00:34:47.783245
- Title: Learning to Compose Soft Prompts for Compositional Zero-Shot Learning
- Title(参考訳): 構成ゼロショット学習のためのソフトプロンプトの構成学習
- Authors: Nihal V. Nayak, Peilin Yu, Stephen H. Bach
- Abstract要約: 合成ソフトプロンプト(CSP)は、大規模事前学習型視覚言語モデル(VLM)のゼロショット合成性を改善するためのパラメータ効率のよい学習手法である。
我々は,未知の属性オブジェクト合成を予測するための合成ゼロショット学習のためのCSPを開発する。
CSPがベンチマークデータセットのCLIPを平均10.9ポイント上回っていることを示す。
- 参考スコア(独自算出の注目度): 9.55910322481318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce compositional soft prompting (CSP), a parameter-efficient
learning technique to improve the zero-shot compositionality of large-scale
pretrained vision-language models (VLMs) like CLIP. We develop CSP for
compositional zero-shot learning, the task of predicting unseen
attribute-object compositions (e.g., old cat and young tiger). VLMs have a
flexible text encoder that can represent arbitrary classes as natural language
prompts but they often underperform task-specific architectures on the
compositional zero-shot benchmark datasets. CSP treats the attributes and
objects that define classes as learnable tokens of vocabulary. During training,
the vocabulary is tuned to recognize classes that compose tokens in multiple
ways (e.g., old cat and white cat). At test time, we recompose the learned
attribute-object vocabulary in new combinations to recognize novel classes. We
show that CSP outperforms the CLIP on benchmark datasets by an average of 10.9
percentage points on AUC. CSP also outperforms CoOp, a soft prompting method
that fine-tunes the prefix context tokens, by an average of 5.8 percentage
points on AUC. We perform additional experiments to show that CSP improves
generalization to higher-order attribute-attribute-object compositions (e.g.,
old white cat) and combinations of pretrained attributes and fine-tuned
objects. The code is available at https://github.com/BatsResearch/csp.
- Abstract(参考訳): CLIPのような大規模事前学習型視覚言語モデル(VLM)のゼロショット合成性を改善するために,パラメータ効率のよい学習手法であるコンポジションソフトプロンプト(CSP)を導入する。
我々は,無知覚属性-対象合成(例えば,老猫と若トラ)の予測タスクである構成的ゼロショット学習のためのcspを開発した。
VLMは、任意のクラスを自然言語のプロンプトとして表現できるフレキシブルなテキストエンコーダを持つが、合成ゼロショットベンチマークデータセット上でタスク固有のアーキテクチャを過小評価することが多い。
cspは、クラスを語彙の学習可能なトークンとして定義する属性とオブジェクトを扱う。
訓練中、語彙は複数の方法でトークンを構成するクラス(例えば、古猫と白猫)を認識するように調整される。
テスト時に,学習した属性オブジェクトの語彙を新しい組み合わせに分解し,新しいクラスを認識する。
CSPがベンチマークデータセットのCLIPを平均10.9ポイント上回っていることを示す。
cspはまた、プレフィックスコンテキストトークンをaucで平均5.8パーセンテージで微調整するソフトプロンプトメソッドであるcoopを上回っている。
cspが高次属性属性属性オブジェクト合成(例えば、オールド・ホワイト・キャット)と事前訓練された属性と微調整されたオブジェクトの組み合わせへの一般化を改善することを示す追加実験を行う。
コードはhttps://github.com/batsresearch/cspで入手できる。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language
Fusion [24.804554907625594]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot
Learning [32.38272122354342]
GIP-COL(Graph-Injected Soft Prompting for Compositional Learning)を提案し、事前学習された視覚言語モデル(VLM)の合成ゼロショット学習(CZSL)能力について検討する。
GIPCOLはMIT-States、UT-Zappos、C-GQAデータセットを含む3つのCZSLベンチマークで最先端のAUC結果を達成する。
論文 参考訳(メタデータ) (2023-11-09T20:32:18Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。
APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-24T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。