論文の概要: Recursive Training for Zero-Shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2103.00086v1
- Date: Fri, 26 Feb 2021 23:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:44:34.970227
- Title: Recursive Training for Zero-Shot Semantic Segmentation
- Title(参考訳): ゼロショットセマンティックセグメンテーションのための再帰的トレーニング
- Authors: Ce Wang, Moshiur Farazi, Nick Barnes
- Abstract要約: ゼロショット設定のためのセマンティックセグメンテーションモデルの再学習を指導する訓練手法を提案する。
提案モデルがPascal-VOC 2012データセットとPascal-Contextデータセットで最新のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 26.89352005206994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General purpose semantic segmentation relies on a backbone CNN network to
extract discriminative features that help classify each image pixel into a
'seen' object class (ie., the object classes available during training) or a
background class. Zero-shot semantic segmentation is a challenging task that
requires a computer vision model to identify image pixels belonging to an
object class which it has never seen before. Equipping a general purpose
semantic segmentation model to separate image pixels of 'unseen' classes from
the background remains an open challenge. Some recent models have approached
this problem by fine-tuning the final pixel classification layer of a semantic
segmentation model for a Zero-Shot setting, but struggle to learn
discriminative features due to the lack of supervision. We propose a recursive
training scheme to supervise the retraining of a semantic segmentation model
for a zero-shot setting using a pseudo-feature representation. To this end, we
propose a Zero-Shot Maximum Mean Discrepancy (ZS-MMD) loss that weighs high
confidence outputs of the pixel classification layer as a pseudo-feature
representation, and feeds it back to the generator. By closing-the-loop on the
generator end, we provide supervision during retraining that in turn helps the
model learn a more discriminative feature representation for 'unseen' classes.
We show that using our recursive training and ZS-MMD loss, our proposed model
achieves state-of-the-art performance on the Pascal-VOC 2012 dataset and
Pascal-Context dataset.
- Abstract(参考訳): 汎用意味セグメンテーションはバックボーンcnnネットワークに依存し、各画像ピクセルを「seen」オブジェクトクラス(トレーニング中に利用可能なオブジェクトクラス)またはバックグラウンドクラスに分類するのに役立つ識別的特徴を抽出する。
ゼロショットセマンティックセグメンテーションは、コンピュータビジョンモデルがこれまで見たことのないオブジェクトクラスに属する画像ピクセルを識別することを必要とする課題です。
unseen'クラスのイメージピクセルを背景から分離する汎用意味セグメンテーションモデルの導入は、まだ未解決の課題である。
最近のモデルでは、ゼロショット設定のためのセグメンテーションモデルの最終的なピクセル分類層を微調整することでこの問題にアプローチしているが、監督の欠如による識別的特徴の習得に苦慮している。
擬似特徴表現を用いたゼロショット設定のためのセマンティックセグメンテーションモデルの再トレーニングを監督する再帰的トレーニングスキームを提案する。
そこで本研究では、画素分類層の高信頼出力を擬似表現として重み付けし、生成元にフィードバックするゼロショット最大平均離散度(ZS-MMD)損失を提案する。
ジェネレータエンドのループを閉じることで、再トレーニング中にモデルが'unseen'クラスのより識別的な特徴表現を学ぶのに役立つように監督する。
本研究では,再帰学習とZS-MMD損失を用いて,Pascal-VOC 2012データセットとPascal-Contextデータセットの最先端性能を実現する。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Half-Real Half-Fake Distillation for Class-Incremental Semantic
Segmentation [84.1985497426083]
畳み込みニューラルネットワークは漸進的な学習に不適である。
新しいクラスは利用できるが、初期トレーニングデータは保持されない。
訓練されたセグメンテーションネットワークを「反転」して、ランダムノイズから始まる入力画像の合成を試みる。
論文 参考訳(メタデータ) (2021-04-02T03:47:16Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。