論文の概要: Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for
Pixel-Level Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2309.14303v4
- Date: Mon, 13 Nov 2023 05:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:24:36.636473
- Title: Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for
Pixel-Level Semantic Segmentation
- Title(参考訳): データセット拡散: ピクセルレベルセマンティックセグメンテーションのための拡散に基づく合成データセット生成
- Authors: Quang Nguyen, Truong Vu, Anh Tran, Khoi Nguyen
- Abstract要約: テキストから画像への生成モデルであるStable Diffusionを用いて,ピクセルレベルのセマンティックセマンティックセマンティクスラベルを生成する手法を提案する。
テキストプロンプト,クロスアテンション,SDの自己アテンションを活用することで,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。
これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。
- 参考スコア(独自算出の注目度): 6.82236459614491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preparing training data for deep vision models is a labor-intensive task. To
address this, generative models have emerged as an effective solution for
generating synthetic data. While current generative models produce image-level
category labels, we propose a novel method for generating pixel-level semantic
segmentation labels using the text-to-image generative model Stable Diffusion
(SD). By utilizing the text prompts, cross-attention, and self-attention of SD,
we introduce three new techniques: class-prompt appending, class-prompt
cross-attention, and self-attention exponentiation. These techniques enable us
to generate segmentation maps corresponding to synthetic images. These maps
serve as pseudo-labels for training semantic segmenters, eliminating the need
for labor-intensive pixel-wise annotation. To account for the imperfections in
our pseudo-labels, we incorporate uncertainty regions into the segmentation,
allowing us to disregard loss from those regions. We conduct evaluations on two
datasets, PASCAL VOC and MSCOCO, and our approach significantly outperforms
concurrent work. Our benchmarks and code will be released at
https://github.com/VinAIResearch/Dataset-Diffusion
- Abstract(参考訳): 深部視覚モデルのトレーニングデータの準備は、労働集約的な作業です。
これに対処するために、生成モデルが合成データを生成する効果的なソリューションとして登場した。
現在の生成モデルは画像レベルのカテゴリラベルを生成する一方で、テキストから画像への生成モデル安定拡散(sd)を用いた画素レベルの意味セグメンテーションラベルを生成する新しい手法を提案する。
テキストプロンプト,クロスアテンション,SDの自己アテンションを利用して,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。
これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。
これらのマップはセマンティクスセグメンタをトレーニングするための擬似ラベルとして機能する。
擬似ラベルの不完全性を考慮し,不確実領域をセグメンテーションに組み込むことで,これらの領域の損失を無視することができる。
PASCAL VOC と MSCOCO の2つのデータセットで評価を行い,本手法は並列処理を著しく上回っている。
ベンチマークとコードはhttps://github.com/VinAIResearch/Dataset-Diffusionで公開される予定です。
関連論文リスト
- Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance [1.2923961938782627]
制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張手法を提案する。
提案手法は,クラス・プロンプト・アペンディングとビジュアル・プリミティブ・コンバインドを用いた効率的なプロンプト生成を含む。
提案手法をPASCAL VOCデータセット上で評価した結果,セマンティックセグメンテーションにおける画像の合成に極めて有効であることが判明した。
論文 参考訳(メタデータ) (2024-09-09T19:01:14Z) - Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - HandsOff: Labeled Dataset Generation With No Additional Human
Annotations [13.11411442720668]
本稿では,任意の数の合成画像と対応するラベルを生成する技術であるHandsOffフレームワークを紹介する。
本フレームワークは,GANインバージョンフィールドとデータセット生成を統一することにより,先行作業の現実的な欠点を回避する。
顔、車、フルボディの人間のポーズ、都市運転シーンなど、複数の挑戦的な領域において、リッチなピクセルワイズラベルを持つデータセットを生成します。
論文 参考訳(メタデータ) (2022-12-24T03:37:02Z) - A Closer Look at Self-training for Zero-Label Semantic Segmentation [53.4488444382874]
トレーニング中に見られないクラスをセグメント化できることは、ディープラーニングにおいて重要な技術的課題です。
事前のゼロラベルセマンティクスセグメンテーションは、ビジュアル・セマンティクスの埋め込みや生成モデルを学ぶことによってこのタスクにアプローチする。
本研究では,同一画像の異なる増分から生じる擬似ラベルの交点を取り出し,ノイズの多い擬似ラベルをフィルタリングする整合性正規化器を提案する。
論文 参考訳(メタデータ) (2021-04-21T14:34:33Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。