論文の概要: DCP-CLIP:A Coarse-to-Fine Framework for Open-Vocabulary Semantic Segmentation with Dual Interaction
- arxiv url: http://arxiv.org/abs/2603.13951v1
- Date: Sat, 14 Mar 2026 13:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.506078
- Title: DCP-CLIP:A Coarse-to-Fine Framework for Open-Vocabulary Semantic Segmentation with Dual Interaction
- Title(参考訳): DCP-CLIP:二元的相互作用を伴う開語彙セマンティックセマンティックセマンティックセグメンテーションのための粗大なフレームワーク
- Authors: Jing Wang, Huimin Shi, Quan Zhou, Qibo Liu, Suofei Zhang, Huimin Lu,
- Abstract要約: 本稿では,意味的セグメンテーションのための新しい粗粒度フレームワーク DCP-CLIP について述べる。
私たちはまず、CLIPのオープン語彙認識機能を利用して、画像コンテキストに関連するセマンティックなカテゴリを識別する。
テキストガイダンスから視覚表現に意味情報を相互に統合することで,粗いセグメンテーションを行う。
- 参考スコア(独自算出の注目度): 7.942981397709137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent years have witnessed the remarkable development for open-vocabulary semantic segmentation (OVSS) using visual-language foundation models, yet still suffer from following fundamental challenges: (1) insufficient cross-modal communications between textual and visual spaces, and (2) significant computational costs from the interactions with massive number of categories. To address these issues, this paper describes a novel coarse-to-fine framework, called DCP-CLIP, for OVSS. Unlike prior efforts that mainly relied on pre-established category content and the inherent spatial-class interaction capability of CLIP, we dynamic constructing category-relevant textual features and explicitly models dual interactions between spatial image features and textual class semantics. Specifically, we first leverage CLIP's open-vocabulary recognition capability to identify semantic categories relevant to the image context, upon which we dynamically generate corresponding textual features to serve as initial textual guidance. Subsequently, we conduct a coarse segmentation by cross-modally integrating semantic information from textual guidance into the visual representations and achieve refined segmentation by integrating spatially enriched features from the encoder to recover fine-grained details and enhance spatial resolution. In final, we leverage spatial information from the segmentation side to refine category predictions for each mask, facilitating more precise semantic labeling. Experiments on multiple OVSS benchmarks demonstrate that DCP-CLIP outperforms existing methods by delivering both higher accuracy and greater efficiency.
- Abstract(参考訳): 近年,視覚言語基盤モデルを用いたオープン語彙セマンティックセグメンテーション(OVSS)が目覚ましい発展を遂げているのを目の当たりにしている。
これらの問題に対処するために,本論文では,OVSS 用の DCP-CLIP と呼ばれる,粗大なフレームワークについて述べる。
従来のCLIPのカテゴリ内容と固有の空間クラス相互作用能力に大きく依存していた従来の取り組みとは異なり、カテゴリ関連テキスト特徴を動的に構築し、空間画像特徴とテキストクラスセマンティクスの二重相互作用を明示的にモデル化する。
具体的には、まずCLIPのオープン語彙認識機能を利用して、画像コンテキストに関連するセマンティックなカテゴリを識別し、対応するテキスト特徴を動的に生成し、初期テキストガイダンスとして機能する。
その後、テキストガイドからの意味情報を視覚表現に相互に統合して粗いセグメンテーションを行い、エンコーダから空間的にリッチな特徴を統合し、きめ細かな細部を復元し、空間分解性を高めることで精巧なセグメンテーションを実現する。
最後に、セグメント化側からの空間情報を活用し、各マスクのカテゴリ予測を洗練し、より正確なセマンティックラベリングを容易にする。
複数のOVSSベンチマークの実験では、DCP-CLIPは精度と効率の両面で既存の手法よりも優れていた。
関連論文リスト
- LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation [12.192429756057132]
Open-vocabulary semantic segmentation (OVSS)は、従来のクローズドセットセマンティックセマンティックセマンティクスを拡張する。
ロゴセグは、(i)グローバルな画像とテキストの類似性を通じて関連カテゴリを動的に重み付けし、幻覚を効果的に低減するオブジェクトの存在、(ii)正確な地域レベルの視覚的テキスト対応を確立する地域対応アライメントモジュール、(iii)ローカルな構造情報とグローバルな意味コンテキストを最適に結合するデュアルストリーム融合機構の3つの重要なイノベーションを統合する。
論文 参考訳(メタデータ) (2026-02-05T12:03:11Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation [16.64056234334767]
Open-vocabulary semantic segmentationは、画像をピクセルレベルで異なる意味領域に分割することを目的としている。
現在の方法は、CLIPのような訓練済みの視覚言語モデルのテキスト埋め込みを利用する。
本稿では,この課題に対する二重プロンプトフレームワークDPSegを提案する。
論文 参考訳(メタデータ) (2025-05-16T20:25:42Z) - Semantic-Space-Intervened Diffusive Alignment for Visual Classification [11.621655970763467]
クロスモーダルアライメントは視覚的分類を改善する効果的なアプローチである。
本稿では,セマンティック空間間微分アライメント法(SeDA)を提案する。
実験結果から,SeDAはクロスモーダルな特徴アライメントを実現し,既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-09T01:41:23Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Context-self contrastive pretraining for crop type semantic segmentation [39.81074867563505]
提案したContext-Self Contrastive Loss (CSCL)は、セマンティックバウンダリをポップアップさせる埋め込み空間を学習する。
衛星画像時系列(SITS)からの作物型セマンティックセマンティックセグメンテーションでは,サテライト境界における性能が重要なボトルネックとなる。
より粒度の高い作物のクラスを得るための超解像における意味的セグメンテーションのプロセスを提案する。
論文 参考訳(メタデータ) (2021-04-09T11:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。