論文の概要: Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.17417v1
- Date: Sun, 24 Aug 2025 15:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.517071
- Title: Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルのゼロショット一般化のための制約付きプロンプト拡張
- Authors: Xiaojie Yin, Qilong Wang, Qinghua Hu,
- Abstract要約: ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 57.357091028792325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) pre-trained on web-scale data exhibit promising zero-shot generalization but often suffer from semantic misalignment due to domain gaps between pre-training and downstream tasks. Existing approaches primarily focus on text prompting with class-specific descriptions and visual-text adaptation via aligning cropped image regions with textual descriptions. However, they still face the issues of incomplete textual prompts and noisy visual prompts. In this paper, we propose a novel constrained prompt enhancement (CPE) method to improve visual-textual alignment by constructing comprehensive textual prompts and compact visual prompts from the semantic perspective. Specifically, our approach consists of two key components: Topology-Guided Synonymous Semantic Generation (TGSSG) and Category-Agnostic Discriminative Region Selection (CADRS). Textually, to address the issue of incomplete semantic expression in textual prompts, our TGSSG first generates synonymous semantic set for each category via large language models, and constructs comprehensive textual prompts based on semantic ambiguity entropy and persistent homology analysis. Visually, to mitigate the irrelevant visual noise introduced by random cropping, our CADRS identifies discriminative regions with activation maps outputted by a pre-trained vision model, effectively filtering out noisy regions and generating compact visual prompts. Given the comprehensive set of textual prompts and compact set of visual prompts, we introduce two set-to-set matching strategies based on test-time adaptation (TTA) and optimal transport (OT) to achieve effective visual-textual alignment, and so improve zero-shot generalization of VLMs.
- Abstract(参考訳): ウェブスケールで事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、事前学習と下流タスクのドメインギャップによって意味的な不整合に悩まされることが多い。
既存のアプローチは主に、クラス固有の記述によるテキストのプロンプトと、収穫された画像領域とテキスト記述との整合による視覚的テキスト適応に重点を置いている。
しかし、まだ不完全なテキストプロンプトやノイズの多い視覚プロンプトの問題に直面している。
本稿では,包括的テキストプロンプトと,セマンティックの観点からのコンパクトな視覚プロンプトを構築することで,視覚・テキストアライメントを改善するための制約付きプロンプトエンハンスメント(CPE)手法を提案する。
具体的には,TGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
TGSSGは、テキストプロンプトにおける不完全意味表現の問題に対処するため、まず大きな言語モデルを用いて各カテゴリの同義意味集合を生成し、意味的あいまいさのエントロピーと永続的ホモロジー分析に基づいて包括的テキストプロンプトを構築する。
視覚的には、ランダムトリミングによって生じる無関係な視覚ノイズを軽減するために、CADRSは、事前学習された視覚モデルによって出力されるアクティベーションマップによる識別領域を特定し、ノイズのある領域を効果的にフィルタリングし、コンパクトな視覚的プロンプトを生成する。
テキストプロンプトの包括的セットと視覚的プロンプトのコンパクトなセットを考えると、テスト時間適応(TTA)と最適トランスポート(OT)に基づく2つのセット・ツー・セットマッチング戦略を導入し、視覚的・テキスト的アライメントを効果的に実現し、VLMのゼロショット一般化を改善する。
関連論文リスト
- Context-Adaptive Multi-Prompt Embedding with Large Language Models for Vision-Language Alignment [33.152772648399846]
本稿では,視覚言語によるコントラスト学習における意味表現を豊かにするための新しい手法を提案する。
プリトレーニング済みのLLMをCLIPフレームワーク内のテキストエンコーダとして利用し、すべてのプロンプトを1つのフォワードパスで共同処理します。
結果として得られる即時埋め込みは統一されたテキスト表現に統合され、視覚的特徴とのセマンティックにリッチなアライメントを可能にする。
論文 参考訳(メタデータ) (2025-08-03T20:48:43Z) - Prompt Disentanglement via Language Guidance and Representation Alignment for Domain Generalization [75.88719716002014]
ドメイン一般化 (Domain Generalization, DG) は、目に見えないターゲットドメインに対して効果的に機能する汎用モデルの開発を目指している。
VFM(Pre-trained Visual Foundation Models)の最近の進歩は、ディープラーニングモデルの一般化能力を向上する大きな可能性を示している。
VFMの制御可能で柔軟な言語プロンプトを活用することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2025-07-03T03:52:37Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation [14.82606425343802]
Open-vocabulary Scene Graph Generation (OV-SGG)は、視覚的関係表現とオープンな語彙的テキスト表現を整合させることにより、クローズドセットの仮定の限界を克服する。
既存のOV-SGG法は、固定されたテキスト表現によって制約され、画像テキストアライメントの多様性と精度が制限される。
本稿では,対象物と地域固有の関係情報を統合することでテキスト表現を向上させるRAHP(Relation-Aware Hierarchical Prompting)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T02:12:37Z) - VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search [51.9899504535878]
テキストに基づく人物検索のための視覚誘導セマンティック・グループ・ネットワーク(VGSG)を提案する。
VGSGでは、視覚関連テキストの特徴を抽出するために視覚誘導の注意が用いられる。
関係知識伝達の助けを借りて、VGKTは意味群テキスト特徴と対応する視覚特徴とを整合させることができる。
論文 参考訳(メタデータ) (2023-11-13T17:56:54Z) - Direction-Oriented Visual-semantic Embedding Model for Remote Sensing Image-text Retrieval [7.118271398274512]
本稿では,視覚と言語の関係を考察するため,方向指向型ビジュアル・セマンティック・エンベディング・モデル(DOVE)を提案する。
我々の目指すのは、潜在空間における視覚的およびテキスト的表現を極力近く、冗長性のない地域視覚表現に向けることである。
我々は、単一の視覚的依存を減らすためにグローバルな視覚意味制約を利用し、最終的な視覚的およびテキスト的表現の外部制約として機能する。
論文 参考訳(メタデータ) (2023-10-12T12:28:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。