論文の概要: Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning
- arxiv url: http://arxiv.org/abs/2506.10575v1
- Date: Thu, 12 Jun 2025 11:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.69505
- Title: Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning
- Title(参考訳): 共同プロンプト適応学習による複数ラベル画像認識のためのテキストと画像
- Authors: Chun-Mei Feng, Kai Yu, Xinxing Xu, Salman Khan, Rick Siow Mong Goh, Wangmeng Zuo, Yong Liu,
- Abstract要約: 本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
- 参考スコア(独自算出の注目度): 69.33115351856785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefited from image-text contrastive learning, pre-trained vision-language models, e.g., CLIP, allow to direct leverage texts as images (TaI) for parameter-efficient fine-tuning (PEFT). While CLIP is capable of making image features to be similar to the corresponding text features, the modality gap remains a nontrivial issue and limits image recognition performance of TaI. Using multi-label image recognition (MLR) as an example, we present a novel method, called T2I-PAL to tackle the modality gap issue when using only text captions for PEFT. The core design of T2I-PAL is to leverage pre-trained text-to-image generation models to generate photo-realistic and diverse images from text captions, thereby reducing the modality gap. To further enhance MLR, T2I-PAL incorporates a class-wise heatmap and learnable prototypes. This aggregates local similarities, making the representation of local visual features more robust and informative for multi-label recognition. For better PEFT, we further combine both prompt tuning and adapter learning to enhance classification performance. T2I-PAL offers significant advantages: it eliminates the need for fully semantically annotated training images, thereby reducing the manual annotation workload, and it preserves the intrinsic mode of the CLIP model, allowing for seamless integration with any existing CLIP framework. Extensive experiments on multiple benchmarks, including MS-COCO, VOC2007, and NUS-WIDE, show that our T2I-PAL can boost recognition performance by 3.47% in average above the top-ranked state-of-the-art methods.
- Abstract(参考訳): 画像テキストのコントラスト学習に特化して、事前訓練された視覚言語モデル、例えばCLIPは、パラメータ効率の微調整(PEFT)のために、画像(TaI)としてテキストを直接活用することができる。
CLIPは、画像特徴を対応するテキスト特徴と類似させることができるが、モダリティギャップは相変わらず問題であり、TaIの画像認識性能を制限している。
マルチラベル画像認識(MLR)を例として,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することで、モダリティギャップを低減することである。
MLRをさらに強化するため、T2I-PALにはクラスワイドヒートマップと学習可能なプロトタイプが組み込まれている。
これにより、局所的な類似性を集約し、局所的な視覚的特徴の表現をより堅牢にし、多ラベル認識に役立てることができる。
PEFTをより良くするために、我々はさらに、プロンプトチューニングとアダプタ学習を併用して、分類性能を向上させる。
T2I-PALには大きなメリットがある。完全なセマンティックなトレーニングイメージの必要性を排除し、手作業によるアノテーションのワークロードを削減し、CLIPモデル固有のモードを保存することにより、既存のCLIPフレームワークとのシームレスな統合が可能になる。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークによる大規模な実験により、我々のT2I-PALは、最先端の最先端手法よりも平均3.47%の認識性能を向上できることが示された。
関連論文リスト
- TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models [19.1659725630146]
トレーニングフリーのテキスト・イメージ・トゥ・イメージ(TF-TI2I)は、追加のトレーニングを必要とせずに最先端のT2Iモデルに適応する。
提案手法は,様々なベンチマークにおいて堅牢な性能を示し,複雑な画像生成タスクの処理の有効性を確認した。
論文 参考訳(メタデータ) (2025-03-19T15:03:19Z) - Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。
本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:36:48Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP [22.33658954569737]
我々は、IGT(Image-Guided-Text)コンポーネントとTGI(Text-Guided-Image)コンポーネントを導入し、相互誘導機構を構築する。
広範囲な実験により、TIMOは最先端(SOTA)トレーニングフリー法よりも著しく優れていた。
提案する改良型TIMO-Sは,最高のトレーニング要求手法を約100倍の時間コストで0.33%以上越えることが可能である。
論文 参考訳(メタデータ) (2024-12-16T02:03:45Z) - Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。