論文の概要: Decoupling Zero-Shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2112.07910v1
- Date: Wed, 15 Dec 2021 06:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 14:42:32.532958
- Title: Decoupling Zero-Shot Semantic Segmentation
- Title(参考訳): ゼロショット意味セグメンテーションの分離
- Authors: Jian Ding, Nan Xue, Gui-Song Xia, Dengxin Dai
- Abstract要約: ゼロショットセマンティックセグメンテーション(ZS3)は、トレーニングで見たことのない新しいカテゴリをセグメンテーションすることを目的としている。
本稿では,ZegFormerと呼ばれる,シンプルで効果的なゼロショットセマンティックセマンティックセマンティクスモデルを提案する。
- 参考スコア(独自算出の注目度): 46.55494691004304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot semantic segmentation (ZS3) aims to segment the novel categories
that have not been seen in the training. Existing works formulate ZS3 as a
pixel-level zero-shot classification problem, and transfer semantic knowledge
from seen classes to unseen ones with the help of language models pre-trained
only with texts. While simple, the pixel-level ZS3 formulation shows the
limited capability to integrate vision-language models that are often
pre-trained with image-text pairs and currently demonstrate great potential for
vision tasks. Inspired by the observation that humans often perform
segment-level semantic labeling, we propose to decouple the ZS3 into two
sub-tasks: 1) a class-agnostic grouping task to group the pixels into segments.
2) a zero-shot classification task on segments. The former sub-task does not
involve category information and can be directly transferred to group pixels
for unseen classes. The latter subtask performs at segment-level and provides a
natural way to leverage large-scale vision-language models pre-trained with
image-text pairs (e.g. CLIP) for ZS3. Based on the decoupling formulation, we
propose a simple and effective zero-shot semantic segmentation model, called
ZegFormer, which outperforms the previous methods on ZS3 standard benchmarks by
large margins, e.g., 35 points on the PASCAL VOC and 3 points on the COCO-Stuff
in terms of mIoU for unseen classes. Code will be released at
https://github.com/dingjiansw101/ZegFormer.
- Abstract(参考訳): ゼロショットセマンティックセグメンテーション(ZS3)は、トレーニングで見たことのない新しいカテゴリをセグメンテーションすることを目的としている。
既存の作業は、ピクセルレベルのゼロショット分類問題としてZS3を定式化し、テキストのみで事前訓練された言語モデルの助けを借りて、見たクラスから見えないクラスに意味的な知識を伝達する。
単純ではあるが、ピクセルレベルZS3の定式化は、画像とテキストのペアで事前訓練された視覚言語モデルを統合する能力に制限があることを示している。
人間がしばしばセグメントレベルのセマンティックラベリングを行うという観察に触発されて、我々はZS3を2つのサブタスクに分離することを提案する。
1) ピクセルをセグメントにグループ化するクラス非依存のグループ化タスク。
2)セグメント上のゼロショット分類タスク。
前者のサブタスクはカテゴリ情報を含んでおらず、見当たらないクラスのためにグループピクセルに直接転送することができる。
後者のサブタスクはセグメントレベルで動作し、ZS3のイメージテキストペア(例えばCLIP)で事前訓練された大規模な視覚言語モデルを活用する自然な方法を提供する。
このデカップリング式に基づいて,ZegFormerと呼ばれる単純なゼロショットセマンティックセマンティックセマンティクスモデルを提案する。これは従来のZS3標準ベンチマークではPASCAL VOCで35点,COCO-Stuffで3点,未確認クラスでmIoUで3点,といった大きなマージンで上回っている。
コードはhttps://github.com/dingjiansw101/ZegFormerでリリースされる。
関連論文リスト
- Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - A Language-Guided Benchmark for Weakly Supervised Open Vocabulary
Semantic Segmentation [10.054960979867584]
本稿では,ZSS,FSS,クロスデータセットのセグメンテーションを新しいクラスで実行可能な,弱い教師付きOVSSパイプラインを提案する。
提案したパイプラインは、弱一般化ゼロショットと弱Few-Shotセマンティックセマンティックセグメンテーションをそれぞれ39と3のmIOUポイントで上回っている。
論文 参考訳(メタデータ) (2023-02-27T21:55:48Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Generative Zero-Shot Learning for Semantic Segmentation of 3D Point
Cloud [79.99653758293277]
本稿では,ZSL(Zero-Shot Learning)とGZSL(Generalized ZSL)の両方を3次元データ上に生成する手法を提案する。
インダクティブZSLとインダクティブGZSLの両方に対して,ModelNet40分類における技術状況に到達または向上することを示す。
実験の結果,本手法は強いベースラインよりも優れており,さらに本手法を提案する。
論文 参考訳(メタデータ) (2021-08-13T13:29:27Z) - From Pixel to Patch: Synthesize Context-aware Features for Zero-shot
Semantic Segmentation [22.88452754438478]
ゼロショットセマンティックセマンティックセマンティックセマンティクスは,カテゴリレベルのセマンティクスのみを持つ未確認オブジェクトのセマンティクスを目的としたセマンティクスである。
本研究では,コンテキスト認識機能生成ネットワーク(CaGNet)を提案する。
Pascal-VOC, Pascal-Context, COCO-stuff の実験結果から,本手法は既存のゼロショットセマンティックセマンティックセグメンテーション法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2020-09-25T13:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。