論文の概要: Prompt Tuning for Zero-shot Compositional Learning
- arxiv url: http://arxiv.org/abs/2312.02191v1
- Date: Sat, 2 Dec 2023 07:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:34:17.818028
- Title: Prompt Tuning for Zero-shot Compositional Learning
- Title(参考訳): ゼロショット合成学習のためのプロンプトチューニング
- Authors: Lingyu Zhang, Ting Hua, Yilin Shen, Hongxia Jin
- Abstract要約: 本稿では,Multi-Modal Prompt Tuning (MMPT) というフレームワークを提案する。
UT-Zapposデータセットでは、MMPTはAUCのスコアを29.8ドルまで押し上げ、前のベストスコアは26.5ドルとした。
より困難なMIT-Statesデータセットでは、AUCのMMPTスコアが現在の最先端の1.5倍向上している。
- 参考スコア(独自算出の注目度): 53.090335182962605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open World Compositional Zero-Shot Learning (OW-CZSL) is known to be an
extremely challenging task, which aims to recognize unseen compositions formed
from seen attributes and objects without any prior assumption of the output
space. In order to achieve this goal, a model has to be "smart" and
"knowledgeable". To be smart, a model should be good at reasoning the
interactions between attributes and objects from the seen compositions. While
"knowledgeable" means the model owns "common sense" to the open world that can
"foresee" some features of the unseen compositions. Most previous work focuses
on the "smart" part, while few of them provided an effective solution to
achieve the "knowledgeable" goal. In this paper, we proposed a framework named
Multi-Modal Prompt Tuning (MMPT) to inherit the "knowledgeable" property from
the large pre-trained vision-language model. Extensive experiments show that
our proposed MMPT obtains new state-of-the-art results in OW-CZSL task. On the
UT-Zappos dataset, MMPT pushes the AUC score to $29.8$, while the previous best
score is $26.5$. On the more challenging MIT-States dataset, the AUC score of
MMPT is 1.5 times better than the current state-of-the-art.
- Abstract(参考訳): open world compositional zero-shot learning (ow-czsl) は極めて困難なタスクとして知られており、出力空間の事前の仮定なしに、見た属性やオブジェクトから形成される見えない合成を認識することを目的としている。
この目標を達成するには、モデルは"スマート"で"知識"でなければなりません。
賢くするために、モデルは、見た構成から属性とオブジェクト間の相互作用を推論するのが得意であるべきです。
理解可能」とは、モデルがオープンワールドに「常識」を持ち、目に見えない構成のいくつかの特徴を「予見」できることを意味する。
以前の仕事のほとんどは"スマート"な部分に焦点を当てていたが、"知識可能な"目標を達成するための効果的なソリューションを提供するものはほとんどなかった。
本稿では,マルチモーダル・プロンプト・チューニング(mmpt)というフレームワークを提案し,事前学習された視覚言語モデルから"知識可能な"特性を継承する。
今回提案したMMPTはOW-CZSLタスクにおいて,新たな最先端結果が得られることを示す。
UT-Zapposデータセットでは、MMPTはAUCのスコアを29.8ドルまで押し上げ、前のベストスコアは26.5ドルとした。
より困難なMIT-Statesデータセットでは、AUCのMMPTスコアが現在の最先端の1.5倍向上している。
関連論文リスト
- Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly
Detection [133.93365706990178]
本研究は,最近提案された多クラス非教師付き異常検出(MUAD)タスクについて検討する。
通常のイメージと異常なイメージの両方を複数のクラスで同時にテストしながら、トレーニングには通常のイメージしか必要としない。
単純なアーキテクチャを持つ平易な視覚変換器(ViT)は、複数のドメインで有効であることが示されている。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Compositional Semantics for Open Vocabulary Spatio-semantic
Representations [4.045603788443984]
汎用移動ロボットは、人間の指示なしにタスクを完了する必要がある。
本稿では,クエリー・セマンティック記憶のための学習に基づく知識表現として,潜時意味埋め込み z* を提案する。
我々は、COCO-Stuffデータセットで訓練された単純な高密度VLMが、42.23 mIoUで181の重なり合うセマンティクスについてz*を学習できることを実証した。
論文 参考訳(メタデータ) (2023-10-08T03:07:14Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Unsupervised Object-Centric Learning with Bi-Level Optimized Query Slot
Attention [26.25900877220557]
Slot-Attentionモジュールはシンプルだが効果的な設計で重要な役割を担い、多くの強力な変種を育ててきた。
本稿では、学習可能なクエリでSlot-Attentionモジュールを初期化し、(2)バイレベル最適化でモデルを最適化することで、これらの問題を解決することを提案する。
本モデルでは、教師なし画像分割と再構成において、合成と複雑な実世界の両方のデータセットに対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-10-17T12:14:59Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。