論文の概要: Segment Everything Everywhere All at Once
- arxiv url: http://arxiv.org/abs/2304.06718v4
- Date: Tue, 11 Jul 2023 18:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 19:27:35.197430
- Title: Segment Everything Everywhere All at Once
- Title(参考訳): あらゆるものを一度にセグメンテーションする
- Authors: Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng
Wang, Lijuan Wang, Jianfeng Gao, Yong Jae Lee
- Abstract要約: 画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
- 参考スコア(独自算出の注目度): 124.90835636901096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present SEEM, a promptable and interactive model for
segmenting everything everywhere all at once in an image, as shown in Fig.1. In
SEEM, we propose a novel decoding mechanism that enables diverse prompting for
all types of segmentation tasks, aiming at a universal segmentation interface
that behaves like large language models (LLMs). More specifically, SEEM is
designed with four desiderata: i) Versatility. We introduce a new visual prompt
to unify different spatial queries including points, boxes, scribbles and
masks, which can further generalize to a different referring image; ii)
Compositionality. We learn a joint visual-semantic space between text and
visual prompts, which facilitates the dynamic composition of two prompt types
required for various segmentation tasks; iii) Interactivity. We further
incorporate learnable memory prompts into the decoder to retain segmentation
history through mask-guided cross-attention from decoder to image features; and
iv) Semantic-awareness. We use a text encoder to encode text queries and mask
labels into the same semantic space for open-vocabulary segmentation. We
conduct a comprehensive empirical study to validate the effectiveness of SEEM
across diverse segmentation tasks. Notably, our single SEEM model achieves
competitive performance across interactive segmentation, generic segmentation,
referring segmentation, and video object segmentation on 9 datasets with
minimum 1/100 supervision. Furthermore, SEEM showcases a remarkable capacity
for generalization to novel prompts or their combinations, rendering it a
readily universal image segmentation interface.
- Abstract(参考訳): 本稿では,SEEMについて述べる。SEEMは,図1に示すように,すべてのものを一斉に画像に分割する,迅速かつインタラクティブなモデルである。
我々は,あらゆる種類のセグメンテーションタスクに対して多様なプロンプトを可能にする新しいデコード機構を提案し,大規模言語モデル (llm) のように振る舞うユニバーサルセグメンテーションインタフェースを目標とした。
より具体的には、SEEMは4つのデシラタで設計されている。
i) 汎用性。
我々は,ポイント,ボックス,スクリブル,マスクを含む異なる空間クエリを統一する新しい視覚的プロンプトを導入し,さらに別の参照画像に一般化する。
ii) 構成性。
様々なセグメンテーションタスクに必要な2つのプロンプトタイプの動的構成を容易にするテキストと視覚プロンプトの合同視覚意味空間を学習する。
iii) 対話性。
さらに学習可能なメモリプロンプトをデコーダに組み込んで,デコーダから画像特徴へのマスクガイドによるクロスアテンションを通じてセグメンテーション履歴を保持する。
四) 意味認識。
我々はテキストエンコーダを用いてテキストクエリとマスクラベルを同じ意味空間にエンコードし、オープン語彙セグメンテーションを行う。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
特に,本モデルでは,対話型セグメンテーション,ジェネリックセグメンテーション,参照セグメンテーション,ビデオオブジェクトセグメンテーションの9つのデータセットにおける最小1/100の監視を行う。
さらに、SEEMは新規プロンプトやそれらの組み合わせを一般化するための顕著な能力を示し、容易に普遍的なイメージセグメンテーションインタフェースとなる。
関連論文リスト
- Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。
セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。
MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-13T14:28:16Z) - Interactive Segmentation for Diverse Gesture Types Without Context [19.29886866117842]
本稿では,画像のみをマークしなければならない簡易な対話型セグメンテーションタスクを提案する。
入力は、任意のジェスチャータイプを指定せずに、任意のジェスチャータイプを指定できる。
我々は,新しいタスクに適応したセグメンテーションを含む対話的セグメンテーションアルゴリズムを多数分析する。
論文 参考訳(メタデータ) (2023-07-20T01:37:32Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。