論文の概要: SemPT: Semantic Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.10645v1
- Date: Thu, 14 Aug 2025 13:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.337144
- Title: SemPT: Semantic Prompt Tuning for Vision-Language Models
- Title(参考訳): SemPT:視覚言語モデルのためのセマンティックプロンプトチューニング
- Authors: Xiao Shi, Yangjun Ou, Zhenzhong Chen,
- Abstract要約: 大量の画像テキストペアで事前訓練された視覚言語モデルは、有望なソリューションを提供する。
本稿では,共有属性レベルの知識を活用することで,一般化課題に取り組む新しいフレームワークであるSemantic Prompt Tuning(SemPT)を紹介する。
SemPTは、ベース・ツー・ノーベル一般化、クロスデータセット転送、クロスドメイン転送、数ショット学習など、さまざまな設定で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 46.02674444180396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual transfer learning for unseen categories presents an active research topic yet a challenging task, due to the inherent conflict between preserving category-specific representations and acquiring transferable knowledge. Vision-Language Models (VLMs) pre-trained on large amounts of image-text pairs offer a promising solution. However, existing prompt tuning methods rely on sparse category labels or disparate LLM-generated descriptions, which fragment knowledge representation and hinder transferability. To address this limitation, we introduce Semantic Prompt Tuning (SemPT), a novel framework that tackles the generalization challenge by leveraging shared attribute-level knowledge across categories. Specifically, SemPT adopts a two-step prompting strategy to guide LLM in extracting shared visual attributes and generating attribute-level descriptions, capturing transferable semantic cues beyond labels while ensuring coherent structure. Then, visually guided weighting is applied to the embeddings of attribute-level descriptions to reduce noise from irrelevant attributes and enhance the text embeddings. Additionally, image embeddings are jointly aligned with both label and attribute-enhanced text embeddings, balancing discrimination for seen categories and transferability to unseen ones. Considering the availability of category exposure, our inference dynamically selects between standard label embeddings for seen categories and attribute-enhanced embeddings for unseen ones to ensure effective adaptation. Extensive experiments on 15 benchmark datasets demonstrate that SemPT achieves state-of-the-art performance across various settings, including base-to-novel generalization, cross-dataset transfer, cross-domain transfer, and few-shot learning.
- Abstract(参考訳): 未確認カテゴリの視覚的伝達学習は、カテゴリー固有の表現の保存と伝達可能な知識の獲得との固有の対立のため、アクティブな研究課題である。
大量の画像テキストペアで事前訓練された視覚言語モデル(VLM)は、有望なソリューションを提供する。
しかし、既存のプロンプトチューニング手法は、断片的な知識表現と伝達性を阻害する、スパースなカテゴリラベルや異なるLCM生成記述に依存している。
この制限に対処するため,セマンティック・プロンプト・チューニング(Semantic Prompt Tuning, SemPT)を紹介した。
具体的には、SemPTは、共有視覚属性を抽出し、属性レベルの記述を生成し、ラベルを超えて転送可能なセマンティックキューをキャプチャし、コヒーレントな構造を確保しながら、LLMを誘導する2段階のプロンプト戦略を採用する。
そして、属性レベルの記述の埋め込みに視覚的にガイドされた重み付けを適用し、無関係な属性からのノイズを低減し、テキスト埋め込みを強化する。
さらに、画像埋め込みはラベルと属性強化されたテキスト埋め込みの両方と共同で調整され、目に見えないカテゴリの識別と、見知らぬカテゴリへの転送可能性のバランスをとる。
カテゴリ露光の可利用性を考慮すると、我々の推論は、見知らぬカテゴリの標準ラベル埋め込みと、見つからないカテゴリの属性強化埋め込みを動的に選択し、効果的な適応を確実にする。
15のベンチマークデータセットに対する大規模な実験により、SemPTは、ベース・ツー・ノーベルの一般化、クロス・データセットの転送、クロス・ドメインの転送、数ショットの学習など、さまざまな設定で最先端のパフォーマンスを実現している。
関連論文リスト
- Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval [23.472806734625774]
画像テキストの正確なマッチングを実現するために,DCAR(Joint Category-Attribute Reweighting)を用いたデュアルプロンプト学習を提案する。
プロンプトパラダイムに基づいて、DCARは属性とクラスの特徴を協調的に最適化し、きめ細かい表現学習を強化する。
論文 参考訳(メタデータ) (2025-08-06T02:44:08Z) - AlignCAT: Visual-Linguistic Alignment of Category and Attributefor Weakly Supervised Visual Grounding [51.74170851840497]
弱教師付きビジュアルグラウンドティングは、テキスト記述に基づいて画像中のオブジェクトを見つけることを目的としている。
既存の手法では、テキスト表現の微妙な意味的差異を区別するために、強力なクロスモーダル推論が欠如している。
本稿では、弱教師付きVGのための新しいクエリベースのセマンティックマッチングフレームワークAlignCATを紹介する。
論文 参考訳(メタデータ) (2025-08-05T08:16:35Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification [8.139529179222844]
Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。
CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。
2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-15T12:51:57Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。