論文の概要: Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2508.04028v1
- Date: Wed, 06 Aug 2025 02:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.508904
- Title: Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval
- Title(参考訳): 視覚言語モデルの下流画像検索への適応のためのデュアルプロンプト学習
- Authors: Yifan Wang, Tao Wang, Chenwei Tang, Caiyang Yu, Zhengqing Zang, Mengmi Zhang, Shudong Huang, Jiancheng Lv,
- Abstract要約: 画像テキストの正確なマッチングを実現するために,DCAR(Joint Category-Attribute Reweighting)を用いたデュアルプロンプト学習を提案する。
プロンプトパラダイムに基づいて、DCARは属性とクラスの特徴を協調的に最適化し、きめ細かい表現学習を強化する。
- 参考スコア(独自算出の注目度): 23.472806734625774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, prompt learning has demonstrated remarkable success in adapting pre-trained Vision-Language Models (VLMs) to various downstream tasks such as image classification. However, its application to the downstream Image-Text Retrieval (ITR) task is more challenging. We find that the challenge lies in discriminating both fine-grained attributes and similar subcategories of the downstream data. To address this challenge, we propose Dual prompt Learning with Joint Category-Attribute Reweighting (DCAR), a novel dual-prompt learning framework to achieve precise image-text matching. The framework dynamically adjusts prompt vectors from both semantic and visual dimensions to improve the performance of CLIP on the downstream ITR task. Based on the prompt paradigm, DCAR jointly optimizes attribute and class features to enhance fine-grained representation learning. Specifically, (1) at the attribute level, it dynamically updates the weights of attribute descriptions based on text-image mutual information correlation; (2) at the category level, it introduces negative samples from multiple perspectives with category-matching weighting to learn subcategory distinctions. To validate our method, we construct the Fine-class Described Retrieval Dataset (FDRD), which serves as a challenging benchmark for ITR in downstream data domains. It covers over 1,500 downstream fine categories and 230,000 image-caption pairs with detailed attribute annotations. Extensive experiments on FDRD demonstrate that DCAR achieves state-of-the-art performance over existing baselines.
- Abstract(参考訳): 近年,画像分類などの下流タスクに事前学習した視覚言語モデル(VLM)を適応させることで,迅速な学習が顕著に成功している。
しかし、下流のImage-Text Retrieval (ITR) タスクへの適用はより困難である。
この課題は、下流データの微粒な属性と類似のサブカテゴリの両方を識別することにある。
この課題に対処するため、画像テキストの正確なマッチングを実現するための新しいデュアルプロンプト学習フレームワークであるDual prompt Learning with Joint Category-Attribute Reweighting (DCAR)を提案する。
このフレームワークは、セマンティック次元と視覚次元の両方からプロンプトベクトルを動的に調整し、下流ITRタスクにおけるCLIPの性能を改善する。
プロンプトパラダイムに基づいて、DCARは属性とクラス機能を共同で最適化し、きめ細かい表現学習を強化する。
具体的には,(1)属性レベルでは,テキスト画像相互情報相関に基づく属性記述の重み付けを動的に更新し,(2)カテゴリレベルでは,カテゴリマッチング重み付けによる複数の視点からの負のサンプルを導入し,サブカテゴリの区別を学習する。
提案手法を検証するために、下流データ領域におけるITRの挑戦的ベンチマークとして機能するFDRD(Fin-class Description Retrieval Dataset)を構築した。
1500以上の下流の細いカテゴリと、詳細な属性アノテーションを備えた230,000のイメージキャプチャーペアをカバーしている。
FDRDに関する大規模な実験は、DCARが既存のベースラインに対して最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文 参考訳(メタデータ) (2025-06-12T11:09:49Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification [8.139529179222844]
Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。
CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。
2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-15T12:51:57Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions [24.596929878045568]
我々は,視覚言語モデル(VLM)を「バグレベル」の画像テキスト管理で訓練する手法を開発した。
我々は,大規模言語モデル(LLM)によって生成されたカテゴリと,豊富な,きめ細かい画像分類データセットを用いて記述する。
以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-04T08:39:13Z) - GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph [63.81641578763094]
適応型効率的な伝達学習(ETL)は視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した
本稿では,2つのモーダリティ構造知識を明示的にモデル化し,テキストアダプティブを実行する,GraphAdapterと呼ばれる効果的なアダプタスタイルチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
論文 参考訳(メタデータ) (2023-09-24T12:56:40Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。