論文の概要: Personalized OVSS: Understanding Personal Concept in Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2507.11030v1
- Date: Tue, 15 Jul 2025 06:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.006191
- Title: Personalized OVSS: Understanding Personal Concept in Open-Vocabulary Semantic Segmentation
- Title(参考訳): パーソナライズされたOVSS:オープン語彙セマンティックセマンティックセグメンテーションにおける個人概念の理解
- Authors: Sunghyun Park, Jungsoo Lee, Shubhankar Borse, Munawar Hayat, Sungha Choi, Kyuwoong Hwang, Fatih Porikli,
- Abstract要約: テキスト・パーソナライズされたオープン語彙セマンティックセマンティック・セグメンテーション」という新しいタスクを導入する。
数組のイメージとマスクを用いて、個人的視覚概念を認識するためのテキストプロンプトチューニングベースのプラグイン手法を提案する。
我々は、個人概念の視覚的埋め込みを注入することで、テキストプロンプトの表現を豊かにすることで、パフォーマンスをさらに向上する。
- 参考スコア(独自算出の注目度): 59.047277629795325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While open-vocabulary semantic segmentation (OVSS) can segment an image into semantic regions based on arbitrarily given text descriptions even for classes unseen during training, it fails to understand personal texts (e.g., `my mug cup') for segmenting regions of specific interest to users. This paper addresses challenges like recognizing `my mug cup' among `multiple mug cups'. To overcome this challenge, we introduce a novel task termed \textit{personalized open-vocabulary semantic segmentation} and propose a text prompt tuning-based plug-in method designed to recognize personal visual concepts using a few pairs of images and masks, while maintaining the performance of the original OVSS. Based on the observation that reducing false predictions is essential when applying text prompt tuning to this task, our proposed method employs `negative mask proposal' that captures visual concepts other than the personalized concept. We further improve the performance by enriching the representation of text prompts by injecting visual embeddings of the personal concept into them. This approach enhances personalized OVSS without compromising the original OVSS performance. We demonstrate the superiority of our method on our newly established benchmarks for this task, including FSS$^\text{per}$, CUB$^\text{per}$, and ADE$^\text{per}$.
- Abstract(参考訳): オープンボキャブラリセマンティックセグメンテーション(OVSS)は、訓練中に見つからないクラスであっても、任意の与えられたテキスト記述に基づいて、イメージをセマンティック領域に分割することができるが、ユーザにとって特定の関心のある領域をセグメンテーションするための個人テキスト(例: 'my mug cup')を理解できない。
本稿では,「マイマグカップ」を「マルチマグカップ」と認識するといった課題に対処する。
この課題を克服するために、新しいタスクである「textit{personalized open-vocabulary semantic segmentation」を導入し、元のOVSSの性能を維持しつつ、数対の画像とマスクを用いて個人的視覚概念を認識できるようにデザインされたテキストプロンプトチューニングベースのプラグイン手法を提案する。
このタスクにテキストプロンプトチューニングを適用する際には,誤予測の低減が不可欠であるという観測に基づいて,提案手法では,パーソナライズされた概念以外の視覚的概念をキャプチャする「負のマスク提案」を採用している。
我々は、個人概念の視覚的埋め込みを注入することで、テキストプロンプトの表現を豊かにすることで、パフォーマンスをさらに向上する。
このアプローチは、オリジナルのOVSSパフォーマンスを損なうことなく、パーソナライズされたOVSSを強化する。
FSS$^\text{per}$, CUB$^\text{per}$, ADE$^\text{per}$などの新しいベンチマークで, 本手法の優位性を示す。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - pOps: Photo-Inspired Diffusion Operators [55.93078592427929]
pOpsは、CLIPイメージの埋め込みに直接セマンティック演算子をトレーニングするフレームワークである。
pOpsは、異なる意味を持つ様々なフォトインスパイアされた演算子を学ぶのに利用できることを示す。
論文 参考訳(メタデータ) (2024-06-03T13:09:32Z) - HARIS: Human-Like Attention for Reference Image Segmentation [5.808325471170541]
本稿では,Human-Like Attention機構を導入したHARISと呼ばれる参照画像分割手法を提案する。
提案手法は,最先端性能とゼロショット能力に優れる。
論文 参考訳(メタデータ) (2024-05-17T11:29:23Z) - CPSeg: Finer-grained Image Semantic Segmentation via Chain-of-Thought
Language Prompting [8.12405696290333]
CPSegは、新しいChain-of-Thoughtプロセスを統合することで、画像セグメンテーションのパフォーマンスを向上させるように設計されたフレームワークである。
我々は、画像、セマンティックマスク、および対応するテキスト情報を含む新しい視覚言語データセット、FloodPromptを提案する。
論文 参考訳(メタデータ) (2023-10-24T13:32:32Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。