論文の概要: Prompting Language-Informed Distribution for Compositional Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2305.14428v2
- Date: Sat, 30 Sep 2023 21:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:44:14.701188
- Title: Prompting Language-Informed Distribution for Compositional Zero-Shot
Learning
- Title(参考訳): 合成ゼロショット学習のためのプロンプト言語インフォームド分布
- Authors: Wentao Bao, Lichang Chen, Heng Huang, Yu Kong
- Abstract要約: 合成ゼロショット学習(CZSL)タスクは、目に見えない視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
- 参考スコア(独自算出の注目度): 80.29186197773636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional zero-shot learning (CZSL) task aims to recognize unseen
compositional visual concepts, e.g., sliced tomatoes, where the model is
learned only from the seen compositions, e.g., sliced potatoes and red
tomatoes. Thanks to the prompt tuning on large pre-trained visual language
models such as CLIP, recent literature shows impressively better CZSL
performance than traditional vision-based methods. However, the key aspects
that impact the generalization to unseen compositions, including the diversity
and informativeness of class context, and the entanglement between visual
primitives, i.e., state and object, are not properly addressed in existing
CLIP-based CZSL literature. In this paper, we propose a model by prompting the
language-informed distribution, aka., PLID, for the CZSL task. Specifically,
the PLID leverages pre-trained large language models (LLM) to 1) formulate the
language-informed class distributions which are diverse and informative, and 2)
enhance the compositionality of the class embedding. Moreover, a
visual-language primitive decomposition (VLPD) module and a stochastic logit
mixup (SLM) strategy are proposed to dynamically fuse the decisions from the
compositional and the primitive logit space. Orthogonal to the existing
literature of soft, hard, or distributional prompts, our method advocates
prompting the LLM-supported class distribution that leads to a better zero-shot
generalization. Experimental results on MIT-States, UT-Zappos, and C-GQA
datasets show the superior performance of the PLID to the prior arts.
- Abstract(参考訳): compositional zero-shot learning (czsl)タスクは、例えばスライストマトのような、目に見えない構成の視覚的概念を認識することを目的としている。
CLIPのような大規模トレーニング済みのビジュアル言語モデルの迅速なチューニングのおかげで、最近の文献では従来の視覚ベースの手法よりもはるかに優れたCZSL性能を示している。
しかし、クラスコンテキストの多様性や情報性、視覚的プリミティブ、すなわち状態とオブジェクトの絡み合いなど、一般化に影響を及ぼす重要な側面は、既存のCLIPベースのCZSL文献では正しく扱われていない。
本稿では,言語に変形した分布を促進させるモデルを提案する。
CZSLタスク用のPLID。
具体的には、PLIDは事前訓練された大規模言語モデル(LLM)を利用する。
1)多様で情報的な言語情報クラス分布を定式化し、
2) クラス埋め込みの構成性を高める。
さらに,視覚言語プリミティブ分解(vlpd)モジュールと確率的ロジット混合(slm)戦略を提案し,構成空間とプリミティブロジット空間から決定を動的に融合する。
従来のソフト,ハード,あるいは分布的プロンプトの文献と直交して,本手法は,より優れたゼロショット一般化をもたらすLLM支援クラス分布の促進を提唱する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
関連論文リスト
- UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Large Language Models are Good Prompt Learners for Low-Shot Image
Classification [12.93177760629652]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-07T06:43:34Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。
本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。
さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文 参考訳(メタデータ) (2023-05-26T07:02:57Z) - Mutual Balancing in State-Object Components for Compositional Zero-Shot
Learning [0.0]
合成ゼロショット学習(CZSL)は、目に見えない状態や物体から未知の合成を認識することを目的としている。
そこで本研究では,CZSLのSTate-Object Components (MUST) におけるMUtual Balanceと呼ばれる新しい手法を提案する。
我々のアプローチは、MIT-States、UT-Zappos、C-GQAといった基本的なCZSLフレームワークと組み合わせることで、最先端のCZSLよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-19T10:21:22Z) - Prompting Large Pre-trained Vision-Language Models For Compositional
Concept Learning [18.33873821351301]
textitPromptCompVLは、MIT-Statesデータセット上で最先端のパフォーマンスを達成する。
提案手法は,他のCLIP法と比較して一貫した改善を実現している。
論文 参考訳(メタデータ) (2022-11-09T18:08:53Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。