論文の概要: Progressive Prompt-Guided Cross-Modal Reasoning for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2603.27993v1
- Date: Mon, 30 Mar 2026 03:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.211118
- Title: Progressive Prompt-Guided Cross-Modal Reasoning for Referring Image Segmentation
- Title(参考訳): 画像セグメント参照のためのプログレッシブ・プロンプトガイド型クロスモーダル推論
- Authors: Jiachen Li, Hongyun Wang, Jinyu Xu, Wenbo Jiang, Yanchun Ma, Yongjian Liu, Qing Xie, Bolong Zheng,
- Abstract要約: 画像セグメンテーションの参照は、自由形式の参照表現に基づいて画像中の対象オブジェクトをローカライズし、セグメンテーションすることを目的としている。
画像セグメンテーションを参考にしたプログレッシブプロンプト誘導型クロスモーダル推論フレームワークであるPPCRを提案する。
PPCRは、推論プロセスをSemantic-Spatial Grounding-Instanceパイプラインとして明示的に構成する。
- 参考スコア(独自算出の注目度): 11.276795416626385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims to localize and segment a target object in an image based on a free-form referring expression. The core challenge lies in effectively bridging linguistic descriptions with object-level visual representations, especially when referring expressions involve detailed attributes and complex inter-object relationships. Existing methods either rely on cross-modal alignment or employ Semantic Segmentation Prompts, but they often lack explicit reasoning mechanisms for grounding language descriptions to target regions in the image. To address these limitations, we propose PPCR, a Progressive Prompt-guided Cross-modal Reasoning framework for referring image segmentation. PPCR explicitly structures the reasoning process as a Semantic Understanding-Spatial Grounding-Instance Segmentation pipeline. Specifically, PPCR first employs multimodal large language models (MLLMs) to generate Semantic Segmentation Prompt that capture key semantic cues of the target object. Based on this semantic context, Spatial Segmentation Prompt are further generated to reason about object location and spatial extent, enabling a progressive transition from semantic understanding to spatial grounding. The Semantic and Spatial Segmentation prompts are then jointly integrated into the segmentation module to guide accurate target localization and segmentation. Extensive experiments on standard referring image segmentation benchmarks demonstrate that PPCR consistently outperforms existing methods. The code will be publicly released to facilitate reproducibility.
- Abstract(参考訳): 画像セグメンテーションの参照は、自由形式の参照表現に基づいて画像中の対象オブジェクトをローカライズし、セグメンテーションすることを目的としている。
中心となる課題は、特に詳細な属性や複雑なオブジェクト間関係を含む表現を参照する場合、オブジェクトレベルの視覚表現で言語記述を効果的にブリッジすることにある。
既存の手法は、クロスモーダルアライメントかセマンティックセグメンテーション・プロンプツ(Semantic Segmentation Prompts)を利用するが、画像内のターゲット領域に言語記述を基礎付けるための明確な推論機構を欠いていることが多い。
これらの制約に対処するため,画像セグメンテーションを参照するためのプログレッシブ・プロンプト誘導型クロスモーダル推論フレームワークであるPPCRを提案する。
PPCRは、推論プロセスをセマンティック理解-空間グラウンドリング-インスタンスセグメンテーションパイプラインとして明示的に構成する。
具体的には、まずマルチモーダルな大言語モデル(MLLM)を使用して、ターゲットオブジェクトのキーセマンティックキューをキャプチャするセマンティックセグメンテーション・プロンプトを生成する。
この意味的文脈に基づいて、空間的セグメンテーション・プロンプトがさらに生成され、対象の位置と空間的範囲を推論し、意味的理解から空間的接地への進歩的な遷移を可能にする。
セマンティックと空間セグメンテーションのプロンプトはセグメンテーションモジュールに統合され、正確なターゲットのローカライゼーションとセグメンテーションを導く。
基準参照画像セグメンテーションベンチマークの大規模な実験は、PPCRが既存の方法より一貫して優れていることを示した。
再現性を促進するために、コードは公開されます。
関連論文リスト
- SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation [33.336549577936196]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSは、オブジェクトリージョンとクラスラベルのセマンティックアライメントを改善することができるため、セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation [87.18373801829314]
In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
論文 参考訳(メタデータ) (2023-11-24T18:59:42Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。