論文の概要: Segment Everything Everywhere All at Once
- arxiv url: http://arxiv.org/abs/2304.06718v3
- Date: Mon, 1 May 2023 17:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 18:06:28.276320
- Title: Segment Everything Everywhere All at Once
- Title(参考訳): あらゆるものを一度にセグメンテーションする
- Authors: Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao,
Yong Jae Lee
- Abstract要約: SEEMは、全てを一度にイメージに分割するための、迅速でインタラクティブなモデルである。
本論文では,SEEMについて述べる。SEEMは,任意の場所を一度に分割する,迅速かつインタラクティブなモデルである。
- 参考スコア(独自算出の注目度): 93.31116727849262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing demand for interactive AI systems, there have been few
comprehensive studies on human-AI interaction in visual understanding e.g.
segmentation. Inspired by the development of prompt-based universal interfaces
for LLMs, this paper presents SEEM, a promptable, interactive model for
Segmenting Everything Everywhere all at once in an image. SEEM has four
desiderata: i) Versatility: by introducing a versatile prompting engine for
different types of prompts, including points, boxes, scribbles, masks, texts,
and referred regions of another image; ii) Compositionality: by learning a
joint visual-semantic space for visual and textual prompts to compose queries
on the fly for inference as shown in Fig 1; iii)Interactivity: by incorporating
learnable memory prompts to retain dialog history information via mask-guided
cross-attention; and iv) Semantic-awareness: by using a text encoder to encode
text queries and mask labels for open-vocabulary segmentation.
- Abstract(参考訳): 対話型AIシステムへの需要が高まっているにもかかわらず、セグメンテーションのような視覚的理解における人間とAIの相互作用に関する包括的な研究はほとんどない。
llmsのためのプロンプトベースのユニバーサルインターフェースの開発に触発された本論文は、画像中のあらゆるものを一度にセグメンテーションするための、迅速かつインタラクティブなモデルであるように見える。
4つのデシデラタがあります
i) 汎用性: ポイント,ボックス,スクリブル,マスク,テキスト,その他の画像の参照領域を含む,さまざまな種類のプロンプトに対して汎用的なプロンプトエンジンを導入すること。
二 構成性:図1に示すように、視覚的及びテキスト的指示のための共同視覚的セマンティック空間を学習し、ハエに照らし出すためのクエリを構成すること。
三 対話性 学習可能なメモリプロンプトを組み込むことにより、マスク誘導による対話履歴情報を保持し、及び
iv)意味認識: テキストエンコーダを使用してテキストクエリとマスクラベルをエンコードして、オープン語彙セグメンテーションを行う。
関連論文リスト
- Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。
セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。
MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-13T14:28:16Z) - Interactive Segmentation for Diverse Gesture Types Without Context [19.29886866117842]
本稿では,画像のみをマークしなければならない簡易な対話型セグメンテーションタスクを提案する。
入力は、任意のジェスチャータイプを指定せずに、任意のジェスチャータイプを指定できる。
我々は,新しいタスクに適応したセグメンテーションを含む対話的セグメンテーションアルゴリズムを多数分析する。
論文 参考訳(メタデータ) (2023-07-20T01:37:32Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。