論文の概要: Prompt Tuning for Zero-shot Compositional Learning
- arxiv url: http://arxiv.org/abs/2312.02191v1
- Date: Sat, 2 Dec 2023 07:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:34:17.818028
- Title: Prompt Tuning for Zero-shot Compositional Learning
- Title(参考訳): ゼロショット合成学習のためのプロンプトチューニング
- Authors: Lingyu Zhang, Ting Hua, Yilin Shen, Hongxia Jin
- Abstract要約: 本稿では,Multi-Modal Prompt Tuning (MMPT) というフレームワークを提案する。
UT-Zapposデータセットでは、MMPTはAUCのスコアを29.8ドルまで押し上げ、前のベストスコアは26.5ドルとした。
より困難なMIT-Statesデータセットでは、AUCのMMPTスコアが現在の最先端の1.5倍向上している。
- 参考スコア(独自算出の注目度): 53.090335182962605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open World Compositional Zero-Shot Learning (OW-CZSL) is known to be an
extremely challenging task, which aims to recognize unseen compositions formed
from seen attributes and objects without any prior assumption of the output
space. In order to achieve this goal, a model has to be "smart" and
"knowledgeable". To be smart, a model should be good at reasoning the
interactions between attributes and objects from the seen compositions. While
"knowledgeable" means the model owns "common sense" to the open world that can
"foresee" some features of the unseen compositions. Most previous work focuses
on the "smart" part, while few of them provided an effective solution to
achieve the "knowledgeable" goal. In this paper, we proposed a framework named
Multi-Modal Prompt Tuning (MMPT) to inherit the "knowledgeable" property from
the large pre-trained vision-language model. Extensive experiments show that
our proposed MMPT obtains new state-of-the-art results in OW-CZSL task. On the
UT-Zappos dataset, MMPT pushes the AUC score to $29.8$, while the previous best
score is $26.5$. On the more challenging MIT-States dataset, the AUC score of
MMPT is 1.5 times better than the current state-of-the-art.
- Abstract(参考訳): open world compositional zero-shot learning (ow-czsl) は極めて困難なタスクとして知られており、出力空間の事前の仮定なしに、見た属性やオブジェクトから形成される見えない合成を認識することを目的としている。
この目標を達成するには、モデルは"スマート"で"知識"でなければなりません。
賢くするために、モデルは、見た構成から属性とオブジェクト間の相互作用を推論するのが得意であるべきです。
理解可能」とは、モデルがオープンワールドに「常識」を持ち、目に見えない構成のいくつかの特徴を「予見」できることを意味する。
以前の仕事のほとんどは"スマート"な部分に焦点を当てていたが、"知識可能な"目標を達成するための効果的なソリューションを提供するものはほとんどなかった。
本稿では,マルチモーダル・プロンプト・チューニング(mmpt)というフレームワークを提案し,事前学習された視覚言語モデルから"知識可能な"特性を継承する。
今回提案したMMPTはOW-CZSLタスクにおいて,新たな最先端結果が得られることを示す。
UT-Zapposデータセットでは、MMPTはAUCのスコアを29.8ドルまで押し上げ、前のベストスコアは26.5ドルとした。
より困難なMIT-Statesデータセットでは、AUCのMMPTスコアが現在の最先端の1.5倍向上している。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Attention Based Simple Primitives for Open World Compositional Zero-Shot Learning [12.558701595138928]
合成ゼロショット学習(CZSL)は属性とオブジェクトペアからなる未知の合成を予測することを目的としている。
この研究では、私たちのテストスペースが属性とオブジェクトの潜在的な組み合わせをすべて包含するオープンワールド構成ゼロショット学習(OW-CZSL)を探求しています。
提案手法では, 属性とオブジェクト間の自己認識機構を利用して, 目に見えるものから見えないものまで, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:11:29Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Compositional Semantics for Open Vocabulary Spatio-semantic
Representations [4.045603788443984]
汎用移動ロボットは、人間の指示なしにタスクを完了する必要がある。
本稿では,クエリー・セマンティック記憶のための学習に基づく知識表現として,潜時意味埋め込み z* を提案する。
我々は、COCO-Stuffデータセットで訓練された単純な高密度VLMが、42.23 mIoUで181の重なり合うセマンティクスについてz*を学習できることを実証した。
論文 参考訳(メタデータ) (2023-10-08T03:07:14Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Unsupervised Object-Centric Learning with Bi-Level Optimized Query Slot
Attention [26.25900877220557]
Slot-Attentionモジュールはシンプルだが効果的な設計で重要な役割を担い、多くの強力な変種を育ててきた。
本稿では、学習可能なクエリでSlot-Attentionモジュールを初期化し、(2)バイレベル最適化でモデルを最適化することで、これらの問題を解決することを提案する。
本モデルでは、教師なし画像分割と再構成において、合成と複雑な実世界の両方のデータセットに対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-10-17T12:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。