論文の概要: DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models
- arxiv url: http://arxiv.org/abs/2308.06160v2
- Date: Tue, 10 Oct 2023 03:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:03:41.251755
- Title: DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models
- Title(参考訳): DatasetDM:拡散モデルを用いた知覚アノテーション付きデータの合成
- Authors: Weijia Wu, Yuzhong Zhao, Hao Chen, Yuchao Gu, Rui Zhao, Yefei He, Hong
Zhou, Mike Zheng Shou, Chunhua Shen
- Abstract要約: 多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
- 参考スコア(独自算出の注目度): 61.906934570771256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current deep networks are very data-hungry and benefit from training on
largescale datasets, which are often time-consuming to collect and annotate. By
contrast, synthetic data can be generated infinitely using generative models
such as DALL-E and diffusion models, with minimal effort and cost. In this
paper, we present DatasetDM, a generic dataset generation model that can
produce diverse synthetic images and the corresponding high-quality perception
annotations (e.g., segmentation masks, and depth). Our method builds upon the
pre-trained diffusion model and extends text-guided image synthesis to
perception data generation. We show that the rich latent code of the diffusion
model can be effectively decoded as accurate perception annotations using a
decoder module. Training the decoder only needs less than 1% (around 100
images) manually labeled images, enabling the generation of an infinitely large
annotated dataset. Then these synthetic data can be used for training various
perception models for downstream tasks. To showcase the power of the proposed
approach, we generate datasets with rich dense pixel-wise labels for a wide
range of downstream tasks, including semantic segmentation, instance
segmentation, and depth estimation. Notably, it achieves 1) state-of-the-art
results on semantic segmentation and instance segmentation; 2) significantly
more robust on domain generalization than using the real data alone; and
state-of-the-art results in zero-shot segmentation setting; and 3) flexibility
for efficient application and novel task composition (e.g., image editing). The
project website and code can be found at
https://weijiawu.github.io/DatasetDM_page/ and
https://github.com/showlab/DatasetDM, respectively
- Abstract(参考訳): 現在のディープネットワークは非常にデータ量が多く、大規模なデータセットでのトレーニングの恩恵を受ける。
対照的に、合成データはdall-eや拡散モデルのような生成モデルを使って最小限の労力とコストで無限に生成できる。
本稿では,多様な合成画像とそれに対応する高品質な認識アノテーション(セグメンテーションマスク,深さなど)を生成できる汎用データセット生成モデルであるDatasetDMを提案する。
本手法は,事前学習した拡散モデルに基づいてテキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
デコーダのトレーニングには、手動でラベル付けされたイメージが1%未満(約100イメージ)必要であり、無限に大きな注釈付きデータセットを生成することができる。
そして、これらの合成データは下流タスクの様々な知覚モデルのトレーニングに使用できる。
提案手法の威力を示すために, セマンティックセグメンテーション, インスタンスセグメンテーション, 深さ推定など, 幅広い下流タスクに対して, リッチなピクセル単位のラベル付きデータセットを生成する。
特筆すべきは
1) セマンティックセグメンテーション及びインスタンスセグメンテーションに関する最先端の結果
2) 実データのみを使用するよりも, 領域一般化においてかなり頑健であり, 最先端の結果がゼロショットセグメンテーション設定となる。
3)効率的なアプリケーションと新しいタスク構成のための柔軟性(画像編集など)。
プロジェクトのWebサイトとコードは、https://weijiawu.github.io/DatasetDM_page/とhttps://github.com/showlab/DatasetDMで見ることができる。
関連論文リスト
- Modified CycleGAN for the synthesization of samples for wheat head
segmentation [0.09999629695552192]
注釈付きデータセットがない場合は、モデル開発に合成データを使用することができる。
そこで我々は,小麦頭部分割のための現実的な注釈付き合成データセットを開発した。
その結果、Diceのスコアは内部データセットで83.4%、外部のGlobal Wheat Head Detectionデータセットで83.6%に達した。
論文 参考訳(メタデータ) (2024-02-23T06:42:58Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image
Diffusion Models and Stylized Semantic Control [71.5653099236357]
DGInStyleと呼ばれる効率的なデータ生成パイプラインを提案する。
街路シーンの多様なデータセットを生成し、ドメインに依存しないセマンティックセマンティックセマンティクスモデルをトレーニングし、人気のある自動運転データセット上でモデルを評価する。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - Diffusion-based Data Augmentation for Nuclei Image Segmentation [68.28350341833526]
核セグメンテーションのための拡散法を初めて導入する。
このアイデアは、多数のラベル付き画像を合成し、セグメンテーションモデルを訓練することを目的としている。
実験の結果,10%のラベル付き実データセットを合成サンプルで拡張することにより,同等のセグメンテーション結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-22T06:16:16Z) - Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for
Pixel-Level Semantic Segmentation [6.82236459614491]
テキストから画像への生成モデルであるStable Diffusionを用いて,ピクセルレベルのセマンティックセマンティックセマンティクスラベルを生成する手法を提案する。
テキストプロンプト,クロスアテンション,SDの自己アテンションを活用することで,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。
これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。
論文 参考訳(メタデータ) (2023-09-25T17:19:26Z) - RADiff: Controllable Diffusion Models for Radio Astronomical Maps
Generation [6.128112213696457]
RADiffは、注釈付き無線データセット上でトレーニングされた条件拡散モデルに基づく生成的アプローチである。
完全合成画像アノテーションペアを生成して,任意のアノテートデータセットを自動的に拡張できることを示す。
論文 参考訳(メタデータ) (2023-07-05T16:04:44Z) - PromptMix: Text-to-image diffusion models enhance the performance of
lightweight networks [83.08625720856445]
ディープラーニングタスクは、人間のオペレーターに時間がかかりすぎるアノテーションを必要とする。
本稿では,既存のデータセットのサイズを人工的に向上するPromptMixを紹介する。
PromptMixは軽量ネットワークの性能を最大26%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-30T14:15:47Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。