Fugu-MT 論文翻訳(概要): Learning to Compose Soft Prompts for Compositional Zero-Shot Learning

論文の概要: Learning to Compose Soft Prompts for Compositional Zero-Shot Learning

arxiv url: http://arxiv.org/abs/2204.03574v3
Date: Mon, 24 Apr 2023 15:46:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 00:34:47.783245
Title: Learning to Compose Soft Prompts for Compositional Zero-Shot Learning
Title（参考訳）: 構成ゼロショット学習のためのソフトプロンプトの構成学習
Authors: Nihal V. Nayak, Peilin Yu, Stephen H. Bach
Abstract要約: 合成ソフトプロンプト(CSP)は、大規模事前学習型視覚言語モデル(VLM)のゼロショット合成性を改善するためのパラメータ効率のよい学習手法である。我々は,未知の属性オブジェクト合成を予測するための合成ゼロショット学習のためのCSPを開発する。 CSPがベンチマークデータセットのCLIPを平均10.9ポイント上回っていることを示す。
参考スコア（独自算出の注目度）: 9.55910322481318
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce compositional soft prompting (CSP), a parameter-efficient learning technique to improve the zero-shot compositionality of large-scale pretrained vision-language models (VLMs) like CLIP. We develop CSP for compositional zero-shot learning, the task of predicting unseen attribute-object compositions (e.g., old cat and young tiger). VLMs have a flexible text encoder that can represent arbitrary classes as natural language prompts but they often underperform task-specific architectures on the compositional zero-shot benchmark datasets. CSP treats the attributes and objects that define classes as learnable tokens of vocabulary. During training, the vocabulary is tuned to recognize classes that compose tokens in multiple ways (e.g., old cat and white cat). At test time, we recompose the learned attribute-object vocabulary in new combinations to recognize novel classes. We show that CSP outperforms the CLIP on benchmark datasets by an average of 10.9 percentage points on AUC. CSP also outperforms CoOp, a soft prompting method that fine-tunes the prefix context tokens, by an average of 5.8 percentage points on AUC. We perform additional experiments to show that CSP improves generalization to higher-order attribute-attribute-object compositions (e.g., old white cat) and combinations of pretrained attributes and fine-tuned objects. The code is available at https://github.com/BatsResearch/csp.
Abstract（参考訳）: CLIPのような大規模事前学習型視覚言語モデル(VLM)のゼロショット合成性を改善するために,パラメータ効率のよい学習手法であるコンポジションソフトプロンプト(CSP)を導入する。我々は,無知覚属性-対象合成(例えば,老猫と若トラ)の予測タスクである構成的ゼロショット学習のためのcspを開発した。 VLMは、任意のクラスを自然言語のプロンプトとして表現できるフレキシブルなテキストエンコーダを持つが、合成ゼロショットベンチマークデータセット上でタスク固有のアーキテクチャを過小評価することが多い。 cspは、クラスを語彙の学習可能なトークンとして定義する属性とオブジェクトを扱う。訓練中、語彙は複数の方法でトークンを構成するクラス(例えば、古猫と白猫)を認識するように調整される。テスト時に,学習した属性オブジェクトの語彙を新しい組み合わせに分解し,新しいクラスを認識する。 CSPがベンチマークデータセットのCLIPを平均10.9ポイント上回っていることを示す。 cspはまた、プレフィックスコンテキストトークンをaucで平均5.8パーセンテージで微調整するソフトプロンプトメソッドであるcoopを上回っている。 cspが高次属性属性属性オブジェクト合成(例えば、オールド・ホワイト・キャット)と事前訓練された属性と微調整されたオブジェクトの組み合わせへの一般化を改善することを示す追加実験を行う。コードはhttps://github.com/batsresearch/cspで入手できる。

関連論文リスト

A Conditional Probability Framework for Compositional Zero-shot Learning [86.86063926727489]
合成ゼロショット学習(CZSL)は、既知の合成から知識を活用することで、既知のオブジェクトと属性の見知らぬ組み合わせを認識することを目的としている。従来のアプローチは、主に属性とオブジェクトを分離することに焦点を当て、学習中にそれらを独立したエンティティとして扱う。属性オブジェクトの依存関係を明示的にモデル化するために、条件付き確率フレームワーク(CPF)を採用しています。
論文参考訳（メタデータ） (2025-07-23T10:20:52Z)
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。 SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文参考訳（メタデータ） (2024-11-24T15:14:05Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。 CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文参考訳（メタデータ） (2024-07-01T15:58:20Z)
Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文参考訳（メタデータ） (2024-06-02T08:32:51Z)
Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文参考訳（メタデータ） (2023-05-29T08:04:05Z)
AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文参考訳（メタデータ） (2023-05-19T07:39:17Z)
OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。 OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文参考訳（メタデータ） (2022-06-06T03:54:53Z)
Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。 APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2020-09-24T16:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。