論文の概要: DiSa: Saliency-Aware Foreground-Background Disentangled Framework for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2601.20064v1
- Date: Tue, 27 Jan 2026 21:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.666148
- Title: DiSa: Saliency-Aware Foreground-Background Disentangled Framework for Open-Vocabulary Semantic Segmentation
- Title(参考訳): DiSa: オープン語彙セマンティックセマンティックセマンティックセマンティックセグメンテーションのためのフォアグラウンド・アンタングル・フレームワーク
- Authors: Zhen Yao, Xin Li, Taotao Jing, Shuai Zhang, Mooi Choo Chuah,
- Abstract要約: Open-vocabulary semantic segmentationは、テキストラベルに基づいた画像内の各ピクセルにラベルを割り当てることを目的としている。
既存のアプローチでは、CLIPのような視覚言語モデル(VLM)を高密度な予測に利用するのが一般的である。
本稿では,新しいサリエンシを意識したフォアグラウンド・バックアングル型フレームワークであるDiSaを紹介する。
- 参考スコア(独自算出の注目度): 16.57245702815661
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Open-vocabulary semantic segmentation aims to assign labels to every pixel in an image based on text labels. Existing approaches typically utilize vision-language models (VLMs), such as CLIP, for dense prediction. However, VLMs, pre-trained on image-text pairs, are biased toward salient, object-centric regions and exhibit two critical limitations when adapted to segmentation: (i) Foreground Bias, which tends to ignore background regions, and (ii) Limited Spatial Localization, resulting in blurred object boundaries. To address these limitations, we introduce DiSa, a novel saliency-aware foreground-background disentangled framework. By explicitly incorporating saliency cues in our designed Saliency-aware Disentanglement Module (SDM), DiSa separately models foreground and background ensemble features in a divide-and-conquer manner. Additionally, we propose a Hierarchical Refinement Module (HRM) that leverages pixel-wise spatial contexts and enables channel-wise feature refinement through multi-level updates. Extensive experiments on six benchmarks demonstrate that DiSa consistently outperforms state-of-the-art methods.
- Abstract(参考訳): Open-vocabulary semantic segmentationは、テキストラベルに基づいた画像内の各ピクセルにラベルを割り当てることを目的としている。
既存のアプローチでは、CLIPのような視覚言語モデル(VLM)を高密度な予測に利用するのが一般的である。
しかし、VLMは画像とテキストのペアで事前訓練されており、正当でオブジェクト中心の領域に偏りがあり、セグメンテーションに適応する際には2つの重要な制限がある。
一 背景地域を無視する傾向のある前景バイアス
(ii) 空間的局所化が限定され、オブジェクトの境界がぼやけている。
これらの制約に対処するために、新しいサリエンシ対応のフォアグラウンド・バックアングル・フレームワークであるDiSaを紹介する。
設計したSaliency-aware Disentanglement Module (SDM) にSaliency cueを明示的に組み込むことにより,DiSaは,前景と背景のアンサンブル機能を分割・コンカレント方式で別々にモデル化する。
さらに,画素単位の空間コンテキストを活用し,マルチレベル更新によるチャネル単位の機能改善を可能にする階層化モジュール (HRM) を提案する。
6つのベンチマークでの大規模な実験は、DiSaが常に最先端の手法より優れていることを示している。
関連論文リスト
- GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。
近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。
生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。
実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文 参考訳(メタデータ) (2025-08-27T16:28:15Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。
本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文 参考訳(メタデータ) (2024-11-27T15:22:44Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Image Segmentation [26.667974865352708]
MROVSegは、オープンボキャブラリイメージセグメンテーションのためのマルチレゾリューショントレーニングフレームワークで、単一の事前トレーニングされたCLIPバックボーンを備えている。
スライドウィンドウを使用して、高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズにマッチする。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - A Simple Framework for Open-Vocabulary Zero-Shot Segmentation [50.58626342189163]
SimZSSはオープン語彙のZero-Shotセグメンテーションのためのフレームワークである。
テキストと言語知識の離散的な性質を利用して、字幕内の局所的な概念をピンポイントする。
SimZSSは,8つのベンチマークデータセットのうち7つについて,15分以内で最先端の結果を達成している。
論文 参考訳(メタデータ) (2024-06-23T11:57:08Z) - Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。