論文の概要: Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding
- arxiv url: http://arxiv.org/abs/2207.08455v2
- Date: Tue, 19 Jul 2022 14:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 11:18:47.700703
- Title: Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding
- Title(参考訳): コントラストとクラスタリングによるオープンワールドセマンティックセマンティックセグメンテーション
- Authors: Quande Liu, Youpeng Wen, Jianhua Han, Chunjing Xu, Hang Xu, Xiaodan
Liang
- Abstract要約: 本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
- 参考スコア(独自算出の注目度): 95.78002228538841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To bridge the gap between supervised semantic segmentation and real-world
applications that acquires one model to recognize arbitrary new concepts,
recent zero-shot segmentation attracts a lot of attention by exploring the
relationships between unseen and seen object categories, yet requiring large
amounts of densely-annotated data with diverse base classes. In this paper, we
propose a new open-world semantic segmentation pipeline that makes the first
attempt to learn to segment semantic objects of various open-world categories
without any efforts on dense annotations, by purely exploiting the
image-caption data that naturally exist on the Internet. Our method,
Vision-language-driven Semantic Segmentation (ViL-Seg), employs an image and a
text encoder to generate visual and text embeddings for the image-caption data,
with two core components that endow its segmentation ability: First, the image
encoder is jointly trained with a vision-based contrasting and a cross-modal
contrasting, which encourage the visual embeddings to preserve both
fine-grained semantics and high-level category information that are crucial for
the segmentation task. Furthermore, an online clustering head is devised over
the image encoder, which allows to dynamically segment the visual embeddings
into distinct semantic groups such that they can be classified by comparing
with various text embeddings to complete our segmentation pipeline. Experiments
show that without using any data with dense annotations, our method can
directly segment objects of arbitrary categories, outperforming zero-shot
segmentation methods that require data labeling on three benchmark datasets.
- Abstract(参考訳): 教師付きセマンティックセグメンテーションと、任意の新しい概念を認識するための1つのモデルを取得する実世界のアプリケーションとのギャップを埋めるために、最近のゼロショットセグメンテーションは、見当たらないオブジェクトのカテゴリ間の関係を探求することで、多くの注目を集めている。
本稿では,インターネット上に自然に存在する画像取得データを純粋に活用することにより,様々なオープンワールドカテゴリのセマンティクスオブジェクトを,密接なアノテーションを使わずにセグメント化することを初めて試みる,新しいオープンワールドセマンティクスセグメンテーションパイプラインを提案する。
視覚言語駆動セマンティックセマンティックセマンティックセマンティクス(ViL-Seg)は画像とテキストエンコーダを用いて、画像キャプチャーデータに対する視覚的およびテキストエンコーダを生成し、そのセマンティクス能力を実現する2つのコアコンポーネントを備える: まず、画像エンコーダは視覚ベースのコントラストとクロスモーダルコントラストで共同で訓練され、視覚埋め込みがセマンティクスに不可欠な細粒度セマンティクスと高レベルカテゴリ情報の両方を保存することを奨励する。
さらに、画像エンコーダ上にオンラインクラスタリングヘッドを設計し、視覚的な埋め込みを異なるセマンティックグループに動的に分割し、様々なテキスト埋め込みと比較してセグメント化パイプラインを完了させることで分類することができる。
提案手法は,高密度アノテーションを使用せずに任意のカテゴリのオブジェクトを直接分割し,3つのベンチマークデータセット上でデータのラベル付けを必要とするゼロショットセグメンテーション法より優れていることを示す。
関連論文リスト
- USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Visual Semantic Segmentation Based on Few/Zero-Shot Learning: An
Overview [47.10687511208189]
本稿では,最近発表された2次元空間から3次元空間への視覚的セマンティックセグメンテーション手法について述べる。
3つの典型的なインスタンス化は、少数/ゼロショット学習と視覚的セマンティックセグメンテーションの相互作用を明らかにするのに関係している。
論文 参考訳(メタデータ) (2022-11-13T13:39:33Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z) - Visual Boundary Knowledge Translation for Foreground Segmentation [57.32522585756404]
視覚境界知識を明示的に考慮したモデルの構築を試みており、未確認カテゴリのセグメンテーションにおけるトレーニングの労力を減らそうとしている。
数十のラベル付きサンプルをガイダンスとして使うだけで、Trans-Netは完全な教師付きメソッドと同等のクローズな結果が得られる。
論文 参考訳(メタデータ) (2021-08-01T07:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。