論文の概要: Early Semantic Grounding in Image Editing Models for Zero-Shot Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2605.13122v1
- Date: Wed, 13 May 2026 07:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.880161
- Title: Early Semantic Grounding in Image Editing Models for Zero-Shot Referring Image Segmentation
- Title(参考訳): ゼロショット参照画像セグメンテーションのための画像編集モデルの早期セマンティックグラウンド化
- Authors: Jingxuan He, Xiyu Wang, Yunke Wang, Mengyu Zheng, Chang Xu,
- Abstract要約: ゼロショット参照画像セグメンテーションにおいて,言語条件の視覚的セマンティックグラウンド化が有効かどうかを検討する。
本稿では,RISの事前学習画像編集モデルを中間表現を利用して再利用する学習自由フレームワークを提案する。
提案手法は,焦点を推定するアテンションベースの空間先行と,セグメンテーションを決定する特徴に基づくセグメンテーションの2つの相補的な構成要素に分割する。
- 参考スコア(独自算出の注目度): 30.988795633147138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing (IIE) models have recently demonstrated strong capability in modifying specific image regions according to natural language instructions, which implicitly requires identifying where an edit should be applied. This indicates that such models inherently perform language-conditioned visual semantic grounding. In this work, we investigate whether this implicit grounding can be leveraged for zero-shot referring image segmentation (RIS), a task that requires pixel-level localization of objects described by natural language expressions. Through systematic analysis, we reveal that strong foreground-background separability emerges in the internal representations of these models at the earliest denoising timestep, well before any visible image transformation occurs. Building on this insight, we propose a training-free framework that repurposes pretrained image editing models for RIS by exploiting their intermediate representations. Our approach decomposes localization into two complementary components: attention-based spatial priors that estimate where to focus, and feature-based semantic discrimination that determines what to segment. By leveraging feature-space separability, the framework produces accurate segmentation masks using only a single denoising step, without requiring full image synthesis. Extensive experiments on RefCOCO, RefCOCO+, and RefCOCOg demonstrate that our method achieves superior performance over existing zero-shot baselines.
- Abstract(参考訳): 命令ベースの画像編集(IIE)モデルは、最近、自然言語の指示に従って特定の画像領域を編集する強力な能力を示した。
これは、そのようなモデルが本質的に言語条件の視覚的セマンティックグラウンドングを実行することを示している。
本研究では,この暗黙的なグラウンド化が,自然言語表現で記述されたオブジェクトの画素レベルの局所化を必要とするタスクである画像分割(RIS)のゼロショット参照に活用できるかどうかを検討する。
系統的な解析により,これらのモデルの内部表現において,目に見える画像変換が起こる直前の最も早い段階で,強い前景と後景の分離性が出現することを明らかにする。
この知見に基づいて,RISの事前学習画像編集モデルを再活用する学習自由フレームワークを提案する。
提案手法は,焦点を推定するアテンションベースの空間先行と,セグメンテーションを決定する特徴に基づくセグメンテーションの2つの相補的な構成要素に分割する。
特徴空間分離性を活用することにより、完全な画像合成を必要とせず、単一のデノナイジングステップのみを用いて正確なセグメンテーションマスクを生成する。
RefCOCO、RefCOCO+、RefCOCOgの大規模な実験により、既存のゼロショットベースラインよりも優れた性能が得られることを示した。
関連論文リスト
- Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation [0.3437656066916039]
画像セグメント化の参照は、自然言語表現によって記述された画像領域のためのピクセルレベルのマスクを作成することを目的としている。
画像セグメンテーションを参照するための空間分割型エキスパートルーティングアーキテクチャSERAを提案する。
SERAは、視覚言語フレームワーク内の2つの相補的な段階において、軽量で表現を意識した専門家の洗練を導入する。
論文 参考訳(メタデータ) (2026-03-13T00:37:20Z) - GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。
近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。
生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。
実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文 参考訳(メタデータ) (2025-08-27T16:28:15Z) - Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model [0.8747606955991707]
本稿では,セグメンテーションの精度とモーダル間のアライメントを向上させるために,アーキテクチャの改善を取り入れた視覚言語モデルを提案する。
SegVLMは多様なデータセットをまたいだ強力な一般化と表現シナリオの参照を示す。
論文 参考訳(メタデータ) (2025-05-25T17:42:53Z) - IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.502962768034166]
Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文 参考訳(メタデータ) (2025-03-02T15:19:37Z) - A Simple Framework for Open-Vocabulary Zero-Shot Segmentation [50.58626342189163]
SimZSSはオープン語彙のZero-Shotセグメンテーションのためのフレームワークである。
テキストと言語知識の離散的な性質を利用して、字幕内の局所的な概念をピンポイントする。
SimZSSは,8つのベンチマークデータセットのうち7つについて,15分以内で最先端の結果を達成している。
論文 参考訳(メタデータ) (2024-06-23T11:57:08Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。