論文の概要: Prompting Language-Informed Distribution for Compositional Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2305.14428v2
- Date: Sat, 30 Sep 2023 21:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:44:14.701188
- Title: Prompting Language-Informed Distribution for Compositional Zero-Shot
Learning
- Title(参考訳): 合成ゼロショット学習のためのプロンプト言語インフォームド分布
- Authors: Wentao Bao, Lichang Chen, Heng Huang, Yu Kong
- Abstract要約: 合成ゼロショット学習(CZSL)タスクは、目に見えない視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
- 参考スコア(独自算出の注目度): 80.29186197773636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional zero-shot learning (CZSL) task aims to recognize unseen
compositional visual concepts, e.g., sliced tomatoes, where the model is
learned only from the seen compositions, e.g., sliced potatoes and red
tomatoes. Thanks to the prompt tuning on large pre-trained visual language
models such as CLIP, recent literature shows impressively better CZSL
performance than traditional vision-based methods. However, the key aspects
that impact the generalization to unseen compositions, including the diversity
and informativeness of class context, and the entanglement between visual
primitives, i.e., state and object, are not properly addressed in existing
CLIP-based CZSL literature. In this paper, we propose a model by prompting the
language-informed distribution, aka., PLID, for the CZSL task. Specifically,
the PLID leverages pre-trained large language models (LLM) to 1) formulate the
language-informed class distributions which are diverse and informative, and 2)
enhance the compositionality of the class embedding. Moreover, a
visual-language primitive decomposition (VLPD) module and a stochastic logit
mixup (SLM) strategy are proposed to dynamically fuse the decisions from the
compositional and the primitive logit space. Orthogonal to the existing
literature of soft, hard, or distributional prompts, our method advocates
prompting the LLM-supported class distribution that leads to a better zero-shot
generalization. Experimental results on MIT-States, UT-Zappos, and C-GQA
datasets show the superior performance of the PLID to the prior arts.
- Abstract(参考訳): compositional zero-shot learning (czsl)タスクは、例えばスライストマトのような、目に見えない構成の視覚的概念を認識することを目的としている。
CLIPのような大規模トレーニング済みのビジュアル言語モデルの迅速なチューニングのおかげで、最近の文献では従来の視覚ベースの手法よりもはるかに優れたCZSL性能を示している。
しかし、クラスコンテキストの多様性や情報性、視覚的プリミティブ、すなわち状態とオブジェクトの絡み合いなど、一般化に影響を及ぼす重要な側面は、既存のCLIPベースのCZSL文献では正しく扱われていない。
本稿では,言語に変形した分布を促進させるモデルを提案する。
CZSLタスク用のPLID。
具体的には、PLIDは事前訓練された大規模言語モデル(LLM)を利用する。
1)多様で情報的な言語情報クラス分布を定式化し、
2) クラス埋め込みの構成性を高める。
さらに,視覚言語プリミティブ分解(vlpd)モジュールと確率的ロジット混合(slm)戦略を提案し,構成空間とプリミティブロジット空間から決定を動的に融合する。
従来のソフト,ハード,あるいは分布的プロンプトの文献と直交して,本手法は,より優れたゼロショット一般化をもたらすLLM支援クラス分布の促進を提唱する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
関連論文リスト
- Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Large Language Models are Good Prompt Learners for Low-Shot Image Classification [12.053713356249695]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-07T06:43:34Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。
本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。
さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文 参考訳(メタデータ) (2023-05-26T07:02:57Z) - Mutual Balancing in State-Object Components for Compositional Zero-Shot
Learning [0.0]
合成ゼロショット学習(CZSL)は、目に見えない状態や物体から未知の合成を認識することを目的としている。
そこで本研究では,CZSLのSTate-Object Components (MUST) におけるMUtual Balanceと呼ばれる新しい手法を提案する。
我々のアプローチは、MIT-States、UT-Zappos、C-GQAといった基本的なCZSLフレームワークと組み合わせることで、最先端のCZSLよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-19T10:21:22Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Leveraging Seen and Unseen Semantic Relationships for Generative
Zero-Shot Learning [14.277015352910674]
新たな意味正規化損失(SR-Loss)を取り入れた知識伝達を明示的に行う生成モデルを提案する。
7つのベンチマークデータセットの実験は、従来の最先端アプローチと比較してLsrGANの優位性を示している。
論文 参考訳(メタデータ) (2020-07-19T01:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。