論文の概要: CoPatch: Zero-Shot Referring Image Segmentation by Leveraging Untapped Spatial Knowledge in CLIP
- arxiv url: http://arxiv.org/abs/2509.23098v1
- Date: Sat, 27 Sep 2025 04:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.035625
- Title: CoPatch: Zero-Shot Referring Image Segmentation by Leveraging Untapped Spatial Knowledge in CLIP
- Title(参考訳): CoPatch:CLIPにおける未解決空間知識の活用による画像セグメンテーションのゼロショット参照
- Authors: Na Min An, Inha Kang, Minhyun Lee, Hyunjung Shim,
- Abstract要約: textscCoPatchはゼロショットRISフレームワークで、テキストと画像の両方の空間表現を強化する。
また,textscCoPatchは, RefCOCO, RefCOCO+, RefCOCOg, PhraseCut (+ 2--7 mIoU) のゼロショットRISにおける空間接地を,追加の訓練を必要とせずに大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 26.827036116024914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial grounding is crucial for referring image segmentation (RIS), where the goal of the task is to localize an object described by language. Current foundational vision-language models (VLMs), such as CLIP, excel at aligning images and text but struggle with understanding spatial relationships. Within the language stream, most existing methods often focus on the primary noun phrase when extracting local text features, undermining contextual tokens. Within the vision stream, CLIP generates similar features for images with different spatial layouts, resulting in limited sensitivity to spatial structure. To address these limitations, we propose \textsc{CoPatch}, a zero-shot RIS framework that leverages internal model components to enhance spatial representations in both text and image modalities. For language, \textsc{CoPatch} constructs hybrid text features by incorporating context tokens carrying spatial cues. For vision, it extracts patch-level image features using our novel path discovered from intermediate layers, where spatial structure is better preserved. These enhanced features are fused into a clustered image-text similarity map, \texttt{CoMap}, enabling precise mask selection. As a result, \textsc{CoPatch} significantly improves spatial grounding in zero-shot RIS across RefCOCO, RefCOCO+, RefCOCOg, and PhraseCut (+ 2--7 mIoU) without requiring any additional training. Our findings underscore the importance of recovering and leveraging the untapped spatial knowledge inherently embedded in VLMs, thereby paving the way for opportunities in zero-shot RIS.
- Abstract(参考訳): 空間的接地は画像分割(RIS)を参照するために重要であり、タスクのゴールは言語によって記述されたオブジェクトをローカライズすることである。
現在の基盤視覚言語モデル(VLM)は、CLIPのような画像とテキストの整合性が優れているが、空間的関係の理解に苦慮している。
言語ストリーム内では、ほとんどの既存のメソッドは、ローカルテキストの特徴を抽出し、コンテキストトークンを損なう際に、主名詞句にフォーカスすることが多い。
視覚ストリーム内では、CLIPは異なる空間配置を持つ画像に対して同様の機能を生成し、空間構造に対する感度が制限される。
これらの制約に対処するため、テキストと画像の両モードにおける空間表現を強化するために、内部モデルコンポーネントを活用するゼロショットRISフレームワークである \textsc{CoPatch} を提案する。
言語の場合、 \textsc{CoPatch} は空間的手がかりを持つコンテキストトークンを組み込むことで、ハイブリッドテキスト機能を構築する。
視覚のために,空間構造が保存しやすい中間層から発見された新しい経路を用いて,パッチレベルの画像特徴を抽出する。
これらの強化された機能は、クラスタ化されたイメージテキスト類似性マップである \texttt{CoMap} に融合され、正確なマスク選択を可能にする。
その結果、textsc{CoPatch} は追加のトレーニングを必要とせず、RefCOCO、RefCOCO+、RefCOCOg、PhraseCut (+ 2--7 mIoU) のゼロショットRISにおける空間的接地を著しく改善する。
本研究は, VLMに埋め込まれた未発見の空間知識の回復と活用の重要性を浮き彫りにした。
関連論文リスト
- Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [56.001484215308075]
本稿では,DINOv2の空間的精度とCLIPの言語理解を組み合わせた,新しいハイブリッドアプローチであるTalk2DINOを提案する。
本研究では,Talk2DINOの強力なセマンティック・ローカライゼーション能力によってセグメンテーションのプロセスが強化されることを示す。
実験の結果、Talk2DINOは教師なしのOVSベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-11-28T19:00:03Z) - Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。