論文の概要: VIP: Visual-guided Prompt Evolution for Efficient Dense Vision-Language Inference
- arxiv url: http://arxiv.org/abs/2605.12325v2
- Date: Wed, 13 May 2026 05:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.90482
- Title: VIP: Visual-guided Prompt Evolution for Efficient Dense Vision-Language Inference
- Title(参考訳): VIP:高精細ビジョン言語推論のための視覚誘導型プロンプト進化
- Authors: Hao Zhu, Shuo Jin, Wenbin Liao, Jiayu Xiao, Yan Zhu, Siyue Yu, Feng Dai,
- Abstract要約: この研究は、より効率的で高品質な高密度予測を容易にするために、最近の空間認識の dino$.$txt フレームワークを活用する。
Visual-Guided Prompt Evolution (VIP)は、dino$.$txtでテキストクエリのセマンティックな表現性を修正し、オブジェクトの微粒化知覚の可能性を解き放つ。
- 参考スコア(独自算出の注目度): 16.94644973706414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pursuing training-free open-vocabulary semantic segmentation in an efficient and generalizable manner remains challenging due to the deep-seated spatial bias in CLIP. To overcome the limitations of existing solutions, this work moves beyond the CLIP-based paradigm and harnesses the recent spatially-aware dino$.$txt framework to facilitate more efficient and high-quality dense prediction. While dino$.$txt exhibits robust spatial awareness, we find that the semantic ambiguity of text queries gives rise to severe mismatch within its dense cross-modal interactions. To address this, we introduce Visual-guided Prompt evolution (VIP) to rectify the semantic expressiveness of text queries in dino$.$txt, unleashing its potential for fine-grained object perception. Towards this end, VIP integrates alias expansion with a visual-guided distillation mechanism to mine valuable semantic cues, which are robustly aggregated in a saliency-aware manner to yield a high-fidelity prediction. Extensive evaluations demonstrate that VIP: 1. surpasses the top-leading methods by 1.4%-8.4% average mIoU, 2. generalizes well to diverse challenging domains, and 3. requires marginal inference time and memory overhead.
- Abstract(参考訳): CLIPの深部空間バイアスのため,学習自由なオープン語彙セマンティックセマンティックセマンティックセマンティクスを効率的かつ一般化可能な方法で提供することは依然として困難である。
既存のソリューションの限界を克服するため、この作業はCLIPベースのパラダイムを超えて、最近の空間認識のdino$を利用する。
より効率的で高品質な高密度予測を容易にするための$txtフレームワーク。
対価は1ドル。
テキストクエリのセマンティックなあいまいさは、その密接な相互モーダル相互作用の中で深刻なミスマッチを引き起こす。
そこで我々は,VIP(Visual-Guided Prompt Evolution)を導入し,テキストクエリのセマンティック表現性をディノ$で補正する。
$txtは、粒度の細かいオブジェクト認識の可能性を解き放つ。
この目的に向けて、VIPはエイリアス展開と視覚誘導蒸留機構を統合して価値あるセマンティック・キューを抽出し、高い忠実度予測をもたらす。
広汎な評価はVIPが示す。
1. トップリード手法を1.4%~8.4%上回る平均mIoU。
2.多種多様な課題領域を一般化し、
3. 限界推論時間とメモリオーバーヘッドが必要です。
関連論文リスト
- dinov3.seg: Open-Vocabulary Semantic Segmentation with DINOv3 [36.6036728217708]
Open-Vocabulary Semantics (OVSS)は、テキスト定義カテゴリのオープンセットからピクセルレベルのラベルを割り当て、推論時に見えないクラスに信頼性の高い一般化を要求する。
我々は dinov3.seg を導入し、 dinov3.txt を OVSS 専用のフレームワークに拡張した。
まず、このバックボーンに合わせたタスク固有のアーキテクチャを設計し、従来のオープン語彙セグメンテーション作業から確立した設計原則を体系的に適用する。
第2に、VTベースのエンコーダのグローバルトークンとローカルパッチレベルのビジュアル特徴の両方に整合したテキスト埋め込みを共同で活用する。
論文 参考訳(メタデータ) (2026-03-19T23:57:28Z) - FreeText: Training-Free Text Rendering in Diffusion Transformers via Attention Localization and Spectral Glyph Injection [28.229261085054745]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、オープンドメイン合成において優れているが、正確なテキストレンダリングに苦戦している。
我々は,emphDiffusion Transformer(DiT)モデルの本質的なメカニズムを活用することにより,テキストレンダリングを改善するトレーニングフリーのプラグイン・アンド・プレイフレームワークであるtextbfFreeTextを提案する。
論文 参考訳(メタデータ) (2026-01-02T02:36:48Z) - Dual-Granularity Semantic Prompting for Language Guidance Infrared Small Target Detection [102.1314414263959]
限られた特徴表現と厳しい背景干渉のため、赤外線小目標検出は依然として困難である。
エンドツーエンドの言語プロンプト駆動フレームワークであるDGSPNetを提案する。
提案手法は検出精度を大幅に向上し、3つのベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-24T16:58:23Z) - TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection [62.95726973851089]
TokenCLIPは、異常学習のためのトークンワイド適応フレームワークである。
視覚的なテキスト空間と学習可能なテキスト空間の動的アライメントを可能にし、微粒な異常学習を実現する。
論文 参考訳(メタデータ) (2025-10-24T05:51:31Z) - AttriPrompt: Dynamic Prompt Composition Learning for CLIP [41.37140060183439]
AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。
本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。
実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
論文 参考訳(メタデータ) (2025-09-07T07:07:59Z) - Hierarchical Cross-modal Prompt Learning for Vision-Language Models [9.128564580725627]
HiCroPLは階層型クロスモーダルなPrompt Learningフレームワークである。
テキストと視覚の相補的な強みを活用して知識の流れを導出する。
11のベンチマークで最先端の結果が得られ、大幅な改善がなされている。
論文 参考訳(メタデータ) (2025-07-20T14:18:04Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。