論文の概要: PVLR: Prompt-driven Visual-Linguistic Representation Learning for
Multi-Label Image Recognition
- arxiv url: http://arxiv.org/abs/2401.17881v1
- Date: Wed, 31 Jan 2024 14:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:15:09.032590
- Title: PVLR: Prompt-driven Visual-Linguistic Representation Learning for
Multi-Label Image Recognition
- Title(参考訳): PVLR:マルチラベル画像認識のためのプロンプト駆動型視覚言語表現学習
- Authors: Hao Tan, Zichang Tan, Jun Li, Jun Wan, Zhen Lei
- Abstract要約: 本稿では,言語的モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習フレームワークを提案する。
従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入する。
- 参考スコア(独自算出の注目度): 47.11517266162346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label image recognition is a fundamental task in computer vision.
Recently, vision-language models have made notable advancements in this area.
However, previous methods often failed to effectively leverage the rich
knowledge within language models and instead incorporated label semantics into
visual features in a unidirectional manner. In this paper, we propose a
Prompt-driven Visual-Linguistic Representation Learning (PVLR) framework to
better leverage the capabilities of the linguistic modality. In PVLR, we first
introduce a dual-prompting strategy comprising Knowledge-Aware Prompting (KAP)
and Context-Aware Prompting (CAP). KAP utilizes fixed prompts to capture the
intrinsic semantic knowledge and relationships across all labels, while CAP
employs learnable prompts to capture context-aware label semantics and
relationships. Later, we propose an Interaction and Fusion Module (IFM) to
interact and fuse the representations obtained from KAP and CAP. In contrast to
the unidirectional fusion in previous works, we introduce a Dual-Modal
Attention (DMA) that enables bidirectional interaction between textual and
visual features, yielding context-aware label representations and
semantic-related visual representations, which are subsequently used to
calculate similarities and generate final predictions for all labels. Extensive
experiments on three popular datasets including MS-COCO, Pascal VOC 2007, and
NUS-WIDE demonstrate the superiority of PVLR.
- Abstract(参考訳): マルチラベル画像認識はコンピュータビジョンの基本課題である。
近年、視覚言語モデルがこの領域で顕著な進歩を遂げている。
しかし、従来の手法は言語モデル内の豊富な知識を効果的に活用できず、代わりにラベルセマンティクスを視覚的特徴に一方向的に組み込んだ。
本稿では,言語モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習(PVLR)フレームワークを提案する。
PVLRでは、まず、知識認識プロンプト(KAP)とコンテキスト認識プロンプト(CAP)を組み合わせた二重プロンプト戦略を導入する。
KAPは、固定的なプロンプトを使用して、すべてのラベルの固有のセマンティック知識と関係をキャプチャし、CAPは学習可能なプロンプトを使用してコンテキスト対応のラベルセマンティクスと関係をキャプチャする。
その後,KAP と CAP から得られた表現を相互に操作し,融合する Interaction and Fusion Module (IFM) を提案する。
従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入し,コンテクスト対応ラベル表現とセマンティック関連ビジュアル表現を生成し,類似性を計算し,すべてのラベルに対して最終的な予測を生成する。
MS-COCO、Pascal VOC 2007、NUS-WIDEを含む3つの一般的なデータセットに対する大規模な実験はPVLRの優位性を示している。
関連論文リスト
- SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。
具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。
VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文 参考訳(メタデータ) (2024-05-11T06:11:42Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Exploring Part-Informed Visual-Language Learning for Person
Re-Identification [40.725052076983516]
本稿では,視覚に基づく人物再識別作業において,部分的インフォームド言語による細粒度視覚的特徴の強化を提案する。
当社の$pi$-VLは、4つの一般的なReIDベンチマークで過去の最先端よりも大幅に改善されています。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。