論文の概要: SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches
- arxiv url: http://arxiv.org/abs/2501.16022v2
- Date: Mon, 17 Mar 2025 21:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:10.954581
- Title: SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches
- Title(参考訳): SketchYourSeg: フリーハンドスケッチによるマスクフリーの主観的イメージセグメンテーション
- Authors: Subhadeep Koley, Viswanatha Reddy Gajjala, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Ayan Kumar Bhunia, Yi-Zhe Song,
- Abstract要約: SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
- 参考スコア(独自算出の注目度): 116.1810651297801
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce SketchYourSeg, a novel framework that establishes freehand sketches as a powerful query modality for subjective image segmentation across entire galleries through a single exemplar sketch. Unlike text prompts that struggle with spatial specificity or interactive methods confined to single-image operations, sketches naturally combine semantic intent with structural precision. This unique dual encoding enables precise visual disambiguation for segmentation tasks where text descriptions would be cumbersome or ambiguous -- such as distinguishing between visually similar instances, specifying exact part boundaries, or indicating spatial relationships in composed concepts. Our approach addresses three fundamental challenges: (i) eliminating the need for pixel-perfect annotation masks during training with a mask-free framework; (ii) creating a synergistic relationship between sketch-based image retrieval (SBIR) models and foundation models (CLIP/DINOv2) where the former provides training signals while the latter generates masks; and (iii) enabling multi-granular segmentation capabilities through purpose-made sketch augmentation strategies. Our extensive evaluations demonstrate superior performance over existing approaches across diverse benchmarks, establishing a new paradigm for user-guided image segmentation that balances precision with efficiency.
- Abstract(参考訳): スケッチユールセグ(SketchYourSeg)は、画廊全体にわたる主観的イメージセグメンテーションのための強力なクエリーモダリティとしてフリーハンドスケッチを確立する新しいフレームワークである。
空間的特異性や単画像操作に限られる対話的手法に苦しむテキストプロンプトとは異なり、スケッチは自然に意味的意図と構造的精度を組み合わせている。
このユニークなデュアルエンコーディングは、視覚的に類似したインスタンスの区別、正確な部分境界の指定、合成概念における空間的関係の表示など、テキスト記述が煩雑で曖昧なセグメンテーションタスクの正確な視覚的曖昧化を可能にする。
私たちのアプローチは3つの根本的な課題に対処しています。
一 面のない枠組みで修行する際、画素完全アノテーションマスクの必要をなくすこと。
(二)スケッチベース画像検索(SBIR)モデルと基礎モデル(CLIP/DINOv2)の相乗関係を作成し、前者はトレーニング信号を提供し、後者はマスクを生成する。
三 スケッチ増強戦略により多粒性セグメンテーション機能を実現すること。
提案手法は,様々なベンチマークにおいて既存手法よりも優れた性能を示し,精度と効率のバランスをとるユーザガイド画像分割のための新しいパラダイムを確立した。
関連論文リスト
- HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。
HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。
分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文 参考訳(メタデータ) (2025-03-17T10:29:08Z) - BEN: Using Confidence-Guided Matting for Dichotomous Image Segmentation [0.0]
CGM(Confidence-Guided Matting)と呼ばれる画像セグメンテーションのための新しいアーキテクチャ手法を提案する。
BENは、初期セグメンテーションのためのBENベースと、信頼性向上のためのBENリファイナの2つのコンポーネントで構成されている。
提案手法は,dis5K検証データセットにおける現在の最先端手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-01-08T01:30:11Z) - Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Pixel-Level Clustering Network for Unsupervised Image Segmentation [3.69853388955692]
画像の領域分割のためのピクセルレベルのクラスタリングフレームワークを,地上の真理アノテーションを使わずに提案する。
また、各スーパーピクセル間の一貫性、隣接するスーパーピクセル間の相似性/相似性、画像間の構造的類似性を利用したトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-24T23:06:29Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - One Sketch for All: One-Shot Personalized Sketch Segmentation [84.45203849671003]
そこで本研究では,最初のワンショットパーソナライズドスケッチセグメンテーション手法を提案する。
我々は、同じカテゴリに属するすべてのスケッチを、特定の部分アノテーション付きの1つのスケッチでセグメント化することを目指している。
私たちは、例に埋め込まれた部分のセマンティクスを保存し、入力スタイルと抽象化に堅牢です。
論文 参考訳(メタデータ) (2021-12-20T20:10:44Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based
Image Retrieval [30.249581102239645]
スケッチベース画像検索(SBIR)の文脈におけるZSL(クロスモーダル・ゼロショット・ラーニング)のための新しいフレームワークを提案する。
共有空間の識別性を確保するためにクロスモーダル三重項損失を定義する一方で、画像領域から特徴抽出を導くための革新的なクロスモーダル注意学習戦略も提案されている。
論文 参考訳(メタデータ) (2021-04-20T12:11:12Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。