論文の概要: Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?
- arxiv url: http://arxiv.org/abs/2602.23339v1
- Date: Thu, 26 Feb 2026 18:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.855067
- Title: Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?
- Title(参考訳): 検索とセグメンテーション:オープン語彙セグメンテーションにおけるスーパービジョンギャップの橋渡しに十分な例は少ないか?
- Authors: Tilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias,
- Abstract要約: Open-vocabulary segmentation (OVS)は、ビジョン言語モデル(VLM)のゼロショット認識能力をピクセルレベルの予測に拡張する。
我々は,テキストプロンプトを画素注釈付き画像のサポートセットで強化する数ショット設定を導入する。
本稿では,テキストおよび視覚的サポート機能を融合させることで,画像単位の軽量な分類器を学習する検索拡張テストタイムアダプタを提案する。
- 参考スコア(独自算出の注目度): 13.02242959998332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.
- Abstract(参考訳): Open-vocabulary segmentation (OVS)は、視覚言語モデル(VLM)のゼロショット認識能力をピクセルレベルの予測に拡張し、テキストプロンプトによって指定された任意のカテゴリのセグメンテーションを可能にする。
最近の進歩にもかかわらず、OVSはVLMのトレーニングに使用される粗いイメージレベルの監督と、自然言語の意味的曖昧さという2つの課題により、完全な教師付きアプローチを遅れている。
これらの制限に対処するために,テキストプロンプトをピクセルアノテーション付き画像のサポートセットで強化する,数ショット設定を導入する。
そこで本研究では,テキストおよび視覚的サポート機能を融合させることで,画像単位の軽量な分類器を学習する検索拡張テスト時アダプタを提案する。
従来の手法とは異なり、我々の手法は学習されたクエリごとの融合を行い、モダリティ間のより強い相乗効果を達成する。
この方法は、継続的な拡張サポートセットをサポートし、パーソナライズされたセグメンテーションのようなきめ細かいタスクに適用する。
実験により,ゼロショットと教師付きセグメンテーションのギャップを著しく狭めながら,開語彙の保存が可能であった。
関連論文リスト
- DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation [16.64056234334767]
Open-vocabulary semantic segmentationは、画像をピクセルレベルで異なる意味領域に分割することを目的としている。
現在の方法は、CLIPのような訓練済みの視覚言語モデルのテキスト埋め込みを利用する。
本稿では,この課題に対する二重プロンプトフレームワークDPSegを提案する。
論文 参考訳(メタデータ) (2025-05-16T20:25:42Z) - The Power of One: A Single Example is All it Takes for Segmentation in VLMs [29.735863112700358]
大規模視覚言語モデル(VLM)は、テキスト記述と画像領域の関連性を暗黙的に学習することで、強力なマルチモーダル理解能力を示す。
この創発的能力は、テキストイメージの注意マップに依存する技術を用いて、ゼロショットオブジェクトの検出とセグメンテーションを可能にする。
提案手法は, ゼロショット性能が向上し, 単一視覚例による微調整によりさらに向上することを示す。
論文 参考訳(メタデータ) (2025-03-13T18:18:05Z) - InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。