論文の概要: Exploring Open-Vocabulary Semantic Segmentation without Human Labels
- arxiv url: http://arxiv.org/abs/2306.00450v1
- Date: Thu, 1 Jun 2023 08:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 17:32:29.809348
- Title: Exploring Open-Vocabulary Semantic Segmentation without Human Labels
- Title(参考訳): 人間ラベルのないオープン語彙セマンティックセマンティックセマンティックセグメンテーションの探索
- Authors: Jun Chen, Deyao Zhu, Guocheng Qian, Bernard Ghanem, Zhicheng Yan,
Chenchen Zhu, Fanyi Xiao, Mohamed Elhoseiny, Sean Chang Culatana
- Abstract要約: 我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
- 参考スコア(独自算出の注目度): 76.15862573035565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation is a crucial task in computer vision that involves
segmenting images into semantically meaningful regions at the pixel level.
However, existing approaches often rely on expensive human annotations as
supervision for model training, limiting their scalability to large, unlabeled
datasets. To address this challenge, we present ZeroSeg, a novel method that
leverages the existing pretrained vision-language (VL) model (e.g. CLIP) to
train open-vocabulary zero-shot semantic segmentation models. Although acquired
extensive knowledge of visual concepts, it is non-trivial to exploit knowledge
from these VL models to the task of semantic segmentation, as they are usually
trained at an image level. ZeroSeg overcomes this by distilling the visual
concepts learned by VL models into a set of segment tokens, each summarizing a
localized region of the target image. We evaluate ZeroSeg on multiple popular
segmentation benchmarks, including PASCAL VOC 2012, PASCAL Context, and COCO,
in a zero-shot manner (i.e., no training or adaption on target segmentation
datasets). Our approach achieves state-of-the-art performance when compared to
other zero-shot segmentation methods under the same training data, while also
performing competitively compared to strongly supervised methods. Finally, we
also demonstrated the effectiveness of ZeroSeg on open-vocabulary segmentation,
through both human studies and qualitative visualizations.
- Abstract(参考訳): セマンティックセグメンテーションは、画像をピクセルレベルで意味のある領域に分割するコンピュータビジョンにおいて重要なタスクである。
しかしながら、既存のアプローチでは、モデルトレーニングの監督として高価なヒューマンアノテーションに依存し、大規模でラベルなしのデータセットへのスケーラビリティを制限することが多い。
この課題に対処するために、ZeroSegを提案する。これは既存の事前訓練された視覚言語(VL)モデル(例えばCLIP)を利用して、オープン語彙ゼロショットセマンティックセマンティックセマンティクスモデルをトレーニングする新しい方法である。
視覚概念に関する広範な知識を得たが、通常イメージレベルで訓練されるため、これらのVLモデルからセマンティックセグメンテーションのタスクに知識を利用するのは簡単ではない。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
我々は、pascal voc 2012、pascal context、cocoを含む複数の人気のあるセグメンテーションベンチマークでゼロセグメンテーションをゼロショット方式で評価する(すなわち、ターゲットセグメンテーションデータセットのトレーニングや適応を行わない)。
本手法は,同じ訓練データ下での他のゼロショットセグメンテーション法と比較して,最先端の性能を達成し,かつ,強い教師付き手法と比較して競争力も高い。
最後に,人間研究と質的可視化の両方を通して,ゼロセグメンテーションがオープンボキャブラリーセグメンテーションに与える影響を実証した。
関連論文リスト
- A Simple Framework for Open-Vocabulary Zero-Shot Segmentation [36.01531912271202]
SimZSSはオープン語彙のZero-Shotセグメンテーションのためのフレームワークである。
テキストと言語知識の離散的な性質を利用して、字幕内の局所的な概念をピンポイントする。
SimZSSは,8つのベンチマークデータセットのうち7つについて,15分以内で最先端の結果を達成している。
論文 参考訳(メタデータ) (2024-06-23T11:57:08Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Learning Hierarchical Image Segmentation For Recognition and By Recognition [39.712584686731574]
本稿では,階層的なセグメンタを認識プロセスに統合し,画像レベルの認識目的のみに基づいてモデル全体を訓練し,適応させることを提案する。
我々は,認識とともに自由な階層的セグメンテーションを学習し,その基盤となるだけでなく,認識の向上にも寄与する部分間関係を自動的に発見する。
特に,このモデル(ラベルなし1Mイメージネット画像でトレーニング)は,PartImageNetオブジェクトセグメンテーションのmIoUにおいて,SAM(11Mイメージマスクでトレーニング)を絶対8%上回っている。
論文 参考訳(メタデータ) (2022-10-01T16:31:44Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Zero-Shot Semantic Segmentation via Spatial and Multi-Scale Aware Visual
Class Embedding [0.0]
言語モデルなしゼロショットセマンティックセマンティックセマンティクスフレームワークSM-VCENet(Spatial and Multi-scale aware Visual Class Embedding Network)を提案する。
実験では、SM-VCENetはゼロショットセマンティックセマンティックセグメンテーションを相対的なマージンで上回ります。
論文 参考訳(メタデータ) (2021-11-30T07:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。