論文の概要: DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models
- arxiv url: http://arxiv.org/abs/2308.06160v2
- Date: Tue, 10 Oct 2023 03:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:03:41.251755
- Title: DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models
- Title(参考訳): DatasetDM:拡散モデルを用いた知覚アノテーション付きデータの合成
- Authors: Weijia Wu, Yuzhong Zhao, Hao Chen, Yuchao Gu, Rui Zhao, Yefei He, Hong
Zhou, Mike Zheng Shou, Chunhua Shen
- Abstract要約: 多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
- 参考スコア(独自算出の注目度): 61.906934570771256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current deep networks are very data-hungry and benefit from training on
largescale datasets, which are often time-consuming to collect and annotate. By
contrast, synthetic data can be generated infinitely using generative models
such as DALL-E and diffusion models, with minimal effort and cost. In this
paper, we present DatasetDM, a generic dataset generation model that can
produce diverse synthetic images and the corresponding high-quality perception
annotations (e.g., segmentation masks, and depth). Our method builds upon the
pre-trained diffusion model and extends text-guided image synthesis to
perception data generation. We show that the rich latent code of the diffusion
model can be effectively decoded as accurate perception annotations using a
decoder module. Training the decoder only needs less than 1% (around 100
images) manually labeled images, enabling the generation of an infinitely large
annotated dataset. Then these synthetic data can be used for training various
perception models for downstream tasks. To showcase the power of the proposed
approach, we generate datasets with rich dense pixel-wise labels for a wide
range of downstream tasks, including semantic segmentation, instance
segmentation, and depth estimation. Notably, it achieves 1) state-of-the-art
results on semantic segmentation and instance segmentation; 2) significantly
more robust on domain generalization than using the real data alone; and
state-of-the-art results in zero-shot segmentation setting; and 3) flexibility
for efficient application and novel task composition (e.g., image editing). The
project website and code can be found at
https://weijiawu.github.io/DatasetDM_page/ and
https://github.com/showlab/DatasetDM, respectively
- Abstract(参考訳): 現在のディープネットワークは非常にデータ量が多く、大規模なデータセットでのトレーニングの恩恵を受ける。
対照的に、合成データはdall-eや拡散モデルのような生成モデルを使って最小限の労力とコストで無限に生成できる。
本稿では,多様な合成画像とそれに対応する高品質な認識アノテーション(セグメンテーションマスク,深さなど)を生成できる汎用データセット生成モデルであるDatasetDMを提案する。
本手法は,事前学習した拡散モデルに基づいてテキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
デコーダのトレーニングには、手動でラベル付けされたイメージが1%未満(約100イメージ)必要であり、無限に大きな注釈付きデータセットを生成することができる。
そして、これらの合成データは下流タスクの様々な知覚モデルのトレーニングに使用できる。
提案手法の威力を示すために, セマンティックセグメンテーション, インスタンスセグメンテーション, 深さ推定など, 幅広い下流タスクに対して, リッチなピクセル単位のラベル付きデータセットを生成する。
特筆すべきは
1) セマンティックセグメンテーション及びインスタンスセグメンテーションに関する最先端の結果
2) 実データのみを使用するよりも, 領域一般化においてかなり頑健であり, 最先端の結果がゼロショットセグメンテーション設定となる。
3)効率的なアプリケーションと新しいタスク構成のための柔軟性(画像編集など)。
プロジェクトのWebサイトとコードは、https://weijiawu.github.io/DatasetDM_page/とhttps://github.com/showlab/DatasetDMで見ることができる。
関連論文リスト
- DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - ScribbleGen: Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation [10.225021032417589]
本稿では,スクリブル教師付きセマンティックセグメンテーションのための生成データ拡張手法であるScribbleGenを提案する。
セマンティックスクリブルに条件付き制御ネット拡散モデルを用いて,高品質なトレーニングデータを生成する。
我々のフレームワークは、完全に教師されたセグメンテーションを超越しても、小さなデータセットでのセグメンテーション性能を著しく改善することを示す。
論文 参考訳(メタデータ) (2023-11-28T13:44:33Z) - Diffusion-based Data Augmentation for Nuclei Image Segmentation [68.28350341833526]
核セグメンテーションのための拡散法を初めて導入する。
このアイデアは、多数のラベル付き画像を合成し、セグメンテーションモデルを訓練することを目的としている。
実験の結果,10%のラベル付き実データセットを合成サンプルで拡張することにより,同等のセグメンテーション結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-22T06:16:16Z) - RADiff: Controllable Diffusion Models for Radio Astronomical Maps
Generation [6.128112213696457]
RADiffは、注釈付き無線データセット上でトレーニングされた条件拡散モデルに基づく生成的アプローチである。
完全合成画像アノテーションペアを生成して,任意のアノテートデータセットを自動的に拡張できることを示す。
論文 参考訳(メタデータ) (2023-07-05T16:04:44Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。