論文の概要: Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?
- arxiv url: http://arxiv.org/abs/2602.23339v1
- Date: Thu, 26 Feb 2026 18:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.855067
- Title: Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?
- Title(参考訳): 検索とセグメンテーション:オープン語彙セグメンテーションにおけるスーパービジョンギャップの橋渡しに十分な例は少ないか?
- Authors: Tilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias,
- Abstract要約: Open-vocabulary segmentation (OVS)は、ビジョン言語モデル(VLM)のゼロショット認識能力をピクセルレベルの予測に拡張する。
我々は,テキストプロンプトを画素注釈付き画像のサポートセットで強化する数ショット設定を導入する。
本稿では,テキストおよび視覚的サポート機能を融合させることで,画像単位の軽量な分類器を学習する検索拡張テストタイムアダプタを提案する。
- 参考スコア(独自算出の注目度): 13.02242959998332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.
- Abstract(参考訳): Open-vocabulary segmentation (OVS)は、視覚言語モデル(VLM)のゼロショット認識能力をピクセルレベルの予測に拡張し、テキストプロンプトによって指定された任意のカテゴリのセグメンテーションを可能にする。
最近の進歩にもかかわらず、OVSはVLMのトレーニングに使用される粗いイメージレベルの監督と、自然言語の意味的曖昧さという2つの課題により、完全な教師付きアプローチを遅れている。
これらの制限に対処するために,テキストプロンプトをピクセルアノテーション付き画像のサポートセットで強化する,数ショット設定を導入する。
そこで本研究では,テキストおよび視覚的サポート機能を融合させることで,画像単位の軽量な分類器を学習する検索拡張テスト時アダプタを提案する。
従来の手法とは異なり、我々の手法は学習されたクエリごとの融合を行い、モダリティ間のより強い相乗効果を達成する。
この方法は、継続的な拡張サポートセットをサポートし、パーソナライズされたセグメンテーションのようなきめ細かいタスクに適用する。
実験により,ゼロショットと教師付きセグメンテーションのギャップを著しく狭めながら,開語彙の保存が可能であった。
関連論文リスト
- DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation [16.64056234334767]
Open-vocabulary semantic segmentationは、画像をピクセルレベルで異なる意味領域に分割することを目的としている。
現在の方法は、CLIPのような訓練済みの視覚言語モデルのテキスト埋め込みを利用する。
本稿では,この課題に対する二重プロンプトフレームワークDPSegを提案する。
論文 参考訳(メタデータ) (2025-05-16T20:25:42Z) - The Power of One: A Single Example is All it Takes for Segmentation in VLMs [29.735863112700358]
大規模視覚言語モデル(VLM)は、テキスト記述と画像領域の関連性を暗黙的に学習することで、強力なマルチモーダル理解能力を示す。
この創発的能力は、テキストイメージの注意マップに依存する技術を用いて、ゼロショットオブジェクトの検出とセグメンテーションを可能にする。
提案手法は, ゼロショット性能が向上し, 単一視覚例による微調整によりさらに向上することを示す。
論文 参考訳(メタデータ) (2025-03-13T18:18:05Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [56.001484215308075]
本稿では,DINOv2の空間的精度とCLIPの言語理解を組み合わせた,新しいハイブリッドアプローチであるTalk2DINOを提案する。
本研究では,Talk2DINOの強力なセマンティック・ローカライゼーション能力によってセグメンテーションのプロセスが強化されることを示す。
実験の結果、Talk2DINOは教師なしのOVSベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-11-28T19:00:03Z) - InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。