論文の概要: SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting
- arxiv url: http://arxiv.org/abs/2504.17395v1
- Date: Thu, 24 Apr 2025 09:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.313648
- Title: SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting
- Title(参考訳): SDVPT: オープンワールドオブジェクトカウントのためのセマンティック駆動型ビジュアルプロンプトチューニング
- Authors: Yiming Zhao, Guorong Li, Laiyun Qing, Amin Beheshti, Jian Yang, Michael Sheng, Yuankai Qi, Qingming Huang,
- Abstract要約: 本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
- 参考スコア(独自算出の注目度): 70.49268117587562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world object counting leverages the robust text-image alignment of pre-trained vision-language models (VLMs) to enable counting of arbitrary categories in images specified by textual queries. However, widely adopted naive fine-tuning strategies concentrate exclusively on text-image consistency for categories contained in training, which leads to limited generalizability for unseen categories. In this work, we propose a plug-and-play Semantic-Driven Visual Prompt Tuning framework (SDVPT) that transfers knowledge from the training set to unseen categories with minimal overhead in parameters and inference time. First, we introduce a two-stage visual prompt learning strategy composed of Category-Specific Prompt Initialization (CSPI) and Topology-Guided Prompt Refinement (TGPR). The CSPI generates category-specific visual prompts, and then TGPR distills latent structural patterns from the VLM's text encoder to refine these prompts. During inference, we dynamically synthesize the visual prompts for unseen categories based on the semantic correlation between unseen and training categories, facilitating robust text-image alignment for unseen categories. Extensive experiments integrating SDVPT with all available open-world object counting models demonstrate its effectiveness and adaptability across three widely used datasets: FSC-147, CARPK, and PUCPR+.
- Abstract(参考訳): オープンワールドオブジェクトカウントは、事前訓練された視覚言語モデル(VLM)の堅牢なテキストイメージアライメントを活用し、テキストクエリによって指定された画像の任意のカテゴリのカウントを可能にする。
しかし、広く採用されているナイーブな微調整戦略は、トレーニングに含まれるカテゴリのテキストイメージの整合性にのみ焦点を絞っているため、目に見えないカテゴリの限定的な一般化性が導かれる。
本研究では,トレーニングセットから未知のカテゴリに,パラメータや推論時間に最小限のオーバーヘッドで知識を転送する,セマンティック駆動型Visual Prompt Tuningフレームワーク(SDVPT)を提案する。
まず,カテゴリー特異的プロンプト初期化(CSPI)とトポロジーガイド型プロンプト再ファインメント(TGPR)からなる2段階の視覚的プロンプト学習戦略を提案する。
CSPIはカテゴリ固有の視覚的プロンプトを生成し、TGPRはVLMのテキストエンコーダから潜在構造パターンを蒸留してこれらのプロンプトを洗練させる。
推論中は、未知のカテゴリと訓練のカテゴリ間の意味的相関に基づいて、未知のカテゴリに対する視覚的プロンプトを動的に合成し、未知のカテゴリに対する堅牢なテキストイメージアライメントを容易にする。
SDVPTを利用可能なすべてのオープンワールドオブジェクトカウントモデルに統合する大規模な実験は、広く使用されている3つのデータセット(FSC-147、CARPK、PUCPR+)において、その有効性と適応性を示している。
関連論文リスト
- Exploring Interpretability for Visual Prompt Tuning with Hierarchical Concepts [39.92376420375139]
視覚的プロンプトの解釈可能性を検討するために,最初のフレームワークであるInterpretable Visual Prompt Tuningを提案する。
視覚的プロンプトは、カテゴリーに依存しないプロトタイプのセットとして表される、人間の理解可能なセマンティックな概念と関連付けられている。
IVPTはこれらの領域の特徴を集約して解釈可能なプロンプトを生成する。
論文 参考訳(メタデータ) (2025-03-08T06:12:50Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification [8.139529179222844]
Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。
CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。
2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-15T12:51:57Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Open-Vocabulary Temporal Action Localization using Multimodal Guidance [67.09635853019005]
OVTALでは、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく、任意のアクションカテゴリをビデオで認識することができる。
この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。
我々は,ActionFormerを拡張した新しいオープン語彙フレームワークであるOVFormerを紹介した。
論文 参考訳(メタデータ) (2024-06-21T18:00:05Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Compound Text-Guided Prompt Tuning via Image-Adaptive Cues [42.248853198953945]
複合テキストガイド型プロンプトチューニング(TGP-T)を提案する。
優れた性能を保ちながら、リソース需要を大幅に削減する。
これはGPUメモリ使用量を93%削減し、16ショットのImageNetで2.5%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2023-12-11T14:17:02Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。