論文の概要: AttriPrompt: Dynamic Prompt Composition Learning for CLIP
- arxiv url: http://arxiv.org/abs/2509.05949v1
- Date: Sun, 07 Sep 2025 07:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.790904
- Title: AttriPrompt: Dynamic Prompt Composition Learning for CLIP
- Title(参考訳): AttriPrompt: CLIPのための動的プロンプト合成学習
- Authors: Qiqi Zhan, Shiwei Li, Qingjie Liu, Yunhong Wang,
- Abstract要約: AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。
本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。
実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
- 参考スコア(独自算出の注目度): 41.37140060183439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of prompt learning methodologies has driven exploration of deeper prompt designs to enhance model performance. However, current deep text prompting approaches suffer from two critical limitations: Over-reliance on constrastive learning objectives that prioritize high-level semantic alignment, neglecting fine-grained feature optimization; Static prompts across all input categories, preventing content-aware adaptation. To address these limitations, we propose AttriPrompt-a novel framework that enhances and refines textual semantic representations by leveraging the intermediate-layer features of CLIP's vision encoder. We designed an Attribute Retrieval module that first clusters visual features from each layer. The aggregated visual features retrieve semantically similar prompts from a prompt pool, which are then concatenated to the input of every layer in the text encoder. Leveraging hierarchical visual information embedded in prompted text features, we introduce Dual-stream Contrastive Learning to realize fine-grained alignment. Furthermore, we introduce a Self-Regularization mechanism by applying explicit regularization constraints between the prompted and non-prompted text features to prevent overfitting on limited training data. Extensive experiments across three benchmarks demonstrate AttriPrompt's superiority over state-of-the-art methods, achieving up to 7.37\% improvement in the base-to-novel setting. The observed strength of our method in cross-domain knowledge transfer positions vision-language pre-trained models as more viable solutions for real-world implementation.
- Abstract(参考訳): 素早い学習手法の進化は、モデル性能を高めるためにより深い素早い設計を探求するきっかけとなった。
しかし、現在のディープテキストプロンプトアプローチには、2つの重要な制限がある: 高いレベルのセマンティックアライメントを優先するコンストラクティブ学習目標への過度な信頼、きめ細かい特徴最適化を無視した; 静的は全ての入力カテゴリにまたがってプロンプトし、コンテンツ認識の適応を防ぐ。
このような制約に対処するために,CLIPの視覚エンコーダの中間層機能を活用してテキスト意味表現を強化・洗練する新しいフレームワークであるAttriPromptを提案する。
私たちはまず各レイヤから視覚的特徴をクラスタ化するAttribute Retrievalモジュールを設計しました。
集約された視覚機能は、プロンプトプールから意味的に類似したプロンプトを取得し、テキストエンコーダ内のすべてのレイヤの入力に連結される。
テキスト機能に埋め込まれた階層的視覚情報を活用することで、よりきめ細かなアライメントを実現するために、Dual-stream Contrastive Learningを導入する。
さらに、学習データに過度に適合しないように、インプットと非プロンプトのテキスト特徴間の明示的な正規化制約を適用して自己正規化機構を導入する。
3つのベンチマークにわたる大規模な実験は、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37倍の改善が達成されている。
ドメイン間知識伝達における本手法の強みは,実世界の実装において,視覚言語による事前学習モデルをより実現可能なソリューションとして位置づける。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Hierarchical Cross-modal Prompt Learning for Vision-Language Models [9.128564580725627]
HiCroPLは階層型クロスモーダルなPrompt Learningフレームワークである。
テキストと視覚の相補的な強みを活用して知識の流れを導出する。
11のベンチマークで最先端の結果が得られ、大幅な改善がなされている。
論文 参考訳(メタデータ) (2025-07-20T14:18:04Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。