Fugu-MT 論文翻訳(概要): Prompting Language-Informed Distribution for Compositional Zero-Shot Learning

論文の概要: Prompting Language-Informed Distribution for Compositional Zero-Shot Learning

arxiv url: http://arxiv.org/abs/2305.14428v2
Date: Sat, 30 Sep 2023 21:05:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:44:14.701188
Title: Prompting Language-Informed Distribution for Compositional Zero-Shot Learning
Title（参考訳）: 合成ゼロショット学習のためのプロンプト言語インフォームド分布
Authors: Wentao Bao, Lichang Chen, Heng Huang, Yu Kong
Abstract要約: 合成ゼロショット学習(CZSL)タスクは、目に見えない視覚概念を認識することを目的としている。本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
参考スコア（独自算出の注目度）: 80.29186197773636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compositional zero-shot learning (CZSL) task aims to recognize unseen compositional visual concepts, e.g., sliced tomatoes, where the model is learned only from the seen compositions, e.g., sliced potatoes and red tomatoes. Thanks to the prompt tuning on large pre-trained visual language models such as CLIP, recent literature shows impressively better CZSL performance than traditional vision-based methods. However, the key aspects that impact the generalization to unseen compositions, including the diversity and informativeness of class context, and the entanglement between visual primitives, i.e., state and object, are not properly addressed in existing CLIP-based CZSL literature. In this paper, we propose a model by prompting the language-informed distribution, aka., PLID, for the CZSL task. Specifically, the PLID leverages pre-trained large language models (LLM) to 1) formulate the language-informed class distributions which are diverse and informative, and 2) enhance the compositionality of the class embedding. Moreover, a visual-language primitive decomposition (VLPD) module and a stochastic logit mixup (SLM) strategy are proposed to dynamically fuse the decisions from the compositional and the primitive logit space. Orthogonal to the existing literature of soft, hard, or distributional prompts, our method advocates prompting the LLM-supported class distribution that leads to a better zero-shot generalization. Experimental results on MIT-States, UT-Zappos, and C-GQA datasets show the superior performance of the PLID to the prior arts.
Abstract（参考訳）: compositional zero-shot learning (czsl)タスクは、例えばスライストマトのような、目に見えない構成の視覚的概念を認識することを目的としている。 CLIPのような大規模トレーニング済みのビジュアル言語モデルの迅速なチューニングのおかげで、最近の文献では従来の視覚ベースの手法よりもはるかに優れたCZSL性能を示している。しかし、クラスコンテキストの多様性や情報性、視覚的プリミティブ、すなわち状態とオブジェクトの絡み合いなど、一般化に影響を及ぼす重要な側面は、既存のCLIPベースのCZSL文献では正しく扱われていない。本稿では,言語に変形した分布を促進させるモデルを提案する。 CZSLタスク用のPLID。具体的には、PLIDは事前訓練された大規模言語モデル(LLM)を利用する。 1)多様で情報的な言語情報クラス分布を定式化し、 2) クラス埋め込みの構成性を高める。さらに,視覚言語プリミティブ分解(vlpd)モジュールと確率的ロジット混合(slm)戦略を提案し,構成空間とプリミティブロジット空間から決定を動的に融合する。従来のソフト,ハード,あるいは分布的プロンプトの文献と直交して,本手法は,より優れたゼロショット一般化をもたらすLLM支援クラス分布の促進を提唱する。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。

関連論文リスト

Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model [56.573203512455706]
大規模視覚言語モデル(VLM)は、大規模視覚テキストペアデータセットを活用することでゼロショット学習(ZSL)において顕著な成功を収めた。この問題に対処する1つのアプローチは、言語を統合することで解釈可能なモデルを開発することである。本稿では,ZSLを解釈可能な言語モデルであるLaZSLを提案する。
論文参考訳（メタデータ） (2025-06-30T13:14:46Z)
Learning Visual Proxy for Compositional Zero-Shot Learning [15.183106475115583]
視覚分布の学習を容易にする新しいアプローチである視覚プロキシラーニングを紹介する。本稿では,原文画像空間と細粒度視覚空間との相互制約を課す効果的なクロスモーダル・ジョイント・ラーニング戦略を提案する。
論文参考訳（メタデータ） (2025-01-23T17:30:27Z)
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文参考訳（メタデータ） (2024-08-22T15:10:20Z)
Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。 LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文参考訳（メタデータ） (2024-06-25T02:18:15Z)
Large Language Models are Good Prompt Learners for Low-Shot Image Classification [12.053713356249695]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-07T06:43:34Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
Hierarchical Visual Primitive Experts for Compositional Zero-Shot Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文参考訳（メタデータ） (2023-08-08T03:24:21Z)
CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文参考訳（メタデータ） (2023-05-26T07:02:57Z)
Mutual Balancing in State-Object Components for Compositional Zero-Shot Learning [0.0]
合成ゼロショット学習(CZSL)は、目に見えない状態や物体から未知の合成を認識することを目的としている。そこで本研究では,CZSLのSTate-Object Components (MUST) におけるMUtual Balanceと呼ばれる新しい手法を提案する。我々のアプローチは、MIT-States、UT-Zappos、C-GQAといった基本的なCZSLフレームワークと組み合わせることで、最先端のCZSLよりも大幅に優れています。
論文参考訳（メタデータ） (2022-11-19T10:21:22Z)
SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。 SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-03T17:51:09Z)
SLM: Learning a Discourse Language Representation with Sentence Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2020-10-30T13:33:41Z)
Leveraging Seen and Unseen Semantic Relationships for Generative Zero-Shot Learning [14.277015352910674]
新たな意味正規化損失(SR-Loss)を取り入れた知識伝達を明示的に行う生成モデルを提案する。 7つのベンチマークデータセットの実験は、従来の最先端アプローチと比較してLsrGANの優位性を示している。
論文参考訳（メタデータ） (2020-07-19T01:25:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。