論文の概要: Multi-dataset Pretraining: A Unified Model for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2106.04121v1
- Date: Tue, 8 Jun 2021 06:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:10:04.184638
- Title: Multi-dataset Pretraining: A Unified Model for Semantic Segmentation
- Title(参考訳): マルチデータセット事前学習:セマンティックセグメンテーションのための統一モデル
- Authors: Bowen Shi, Xiaopeng Zhang, Haohang Xu, Wenrui Dai, Junni Zou, Hongkai
Xiong, Qi Tian
- Abstract要約: 我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
- 参考スコア(独自算出の注目度): 97.61605021985062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting annotated data for semantic segmentation is time-consuming and
hard to scale up. In this paper, we for the first time propose a unified
framework, termed as Multi-Dataset Pretraining, to take full advantage of the
fragmented annotations of different datasets. The highlight is that the
annotations from different domains can be efficiently reused and consistently
boost performance for each specific domain. This is achieved by first
pretraining the network via the proposed pixel-to-prototype contrastive loss
over multiple datasets regardless of their taxonomy labels, and followed by
fine-tuning the pretrained model over specific dataset as usual. In order to
better model the relationship among images and classes from different datasets,
we extend the pixel level embeddings via cross dataset mixing and propose a
pixel-to-class sparse coding strategy that explicitly models the pixel-class
similarity over the manifold embedding space. In this way, we are able to
increase intra-class compactness and inter-class separability, as well as
considering inter-class similarity across different datasets for better
transferability. Experiments conducted on several benchmarks demonstrate its
superior performance. Notably, MDP consistently outperforms the pretrained
models over ImageNet by a considerable margin, while only using less than 10%
samples for pretraining.
- Abstract(参考訳): セマンティクスセグメンテーションのための注釈付きデータ収集は時間がかかり、スケールアップが困難である。
本稿では,マルチデータセットプリトレーニング(multi-dataset pretraining)と呼ばれる統一フレームワークを初めて提案し,異なるデータセットの断片化されたアノテーションを最大限活用する。
強調されているのは、異なるドメインからのアノテーションを効率的に再利用でき、特定のドメイン毎のパフォーマンスを継続的に向上できることだ。
これは、まず提案されたpixel-to-prototypeコントラスト損失を分類ラベルに関係なく複数のデータセットで事前トレーニングし、その後、通常通り特定のデータセット上で事前トレーニングされたモデルを微調整することで実現される。
異なるデータセットから画像とクラス間の関係をよりよくモデル化するために、クロスデータセット混合による画素レベルの埋め込みを拡張し、多様体埋め込み空間上のピクセルクラス類似性を明示的にモデル化する画素間疎符号化戦略を提案する。
このようにして、クラス内コンパクト性とクラス間セパビリティを高め、異なるデータセット間のクラス間類似性を考慮し、転送可能性を向上させることができる。
いくつかのベンチマークで実施した実験は、その優れた性能を示している。
特に、MDPは、事前トレーニングに10%未満のサンプルしか使用せず、ImageNet上でトレーニング済みのモデルよりずっと優れている。
関連論文リスト
- DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Class-level Multiple Distributions Representation are Necessary for
Semantic Segmentation [9.796689408601775]
クラス内変動を複数の分布で記述する手法を初めて紹介する。
また,組込み画素の識別的多重分布表現を構築するためのクラス多重分布整合性戦略を提案する。
我々のアプローチは、一般的なセグメンテーションフレームワークFCN/PSPNet/CCNetにシームレスに統合され、5.61%/1.75%/0.75% mIoUの改善がADE20Kで達成される。
論文 参考訳(メタデータ) (2023-03-14T16:10:36Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Semi-Supervised Semantic Segmentation with Pixel-Level Contrastive
Learning from a Class-wise Memory Bank [5.967279020820772]
本稿では,コントラスト学習に基づく新しい表現学習モジュールを提案する。
このモジュールはセグメンテーションネットワークを強制し、同じクラスのサンプルに対して同様のピクセルレベルの特徴表現を生成する。
エンドツーエンドのトレーニングでは、ラベル付きデータとラベルなしデータの両方の機能は、メモリバンクの同じクラスのサンプルに最適化される。
論文 参考訳(メタデータ) (2021-04-27T18:19:33Z) - Efficient Full Image Interactive Segmentation by Leveraging Within-image
Appearance Similarity [39.17599924322882]
インタラクティブなフルイメージセマンティックセマンティックセグメンテーションのための新しいアプローチを提案する。
ラベル付き画素からラベルなしピクセルへの伝搬は必ずしもクラス固有の知識を必要としない。
この観測に基づいて,複数のクラスから画素ラベルを共同で伝播する手法を提案する。
論文 参考訳(メタデータ) (2020-07-16T08:21:59Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。