論文の概要: Stable diffusion for Data Augmentation in COCO and Weed Datasets
- arxiv url: http://arxiv.org/abs/2312.03996v1
- Date: Thu, 7 Dec 2023 02:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:28:57.268516
- Title: Stable diffusion for Data Augmentation in COCO and Weed Datasets
- Title(参考訳): COCOおよび雑草データセットにおけるデータ拡張のための安定拡散
- Authors: Boyang Deng, Yuzhen Lu
- Abstract要約: 生成モデルは、コンピュータビジョンにおけるイメージリビジョンやオブジェクト検出から、インテリアデザインやアイデアイラストレーションまで、相対的なタスクにますます影響を与えている。
安定拡散は、テキストプロンプトや参照画像から詳細な詳細を持つ高解像度画像を生成するための、優れたモデルシリーズである。
本研究は、ミシガン州のCOCOデータセットと3種の広く分布する雑草の7つのカテゴリーを用いて、最近の安定拡散の効率を評価した。
- 参考スコア(独自算出の注目度): 6.89978591161039
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative models have increasingly impacted relative tasks ranging from
image revision and object detection in computer vision to interior design and
idea illustration in more general fields. Stable diffusion is an outstanding
model series that paves the way for producing high-resolution images with
thorough details from text prompts or reference images. It will be an
interesting topic about how to leverage the capability of stable diffusion to
elevate the image variations of certain categories (e.g., vehicles, humans, and
daily objects); particularly, it has the potential to gain improvements for
small datasets with image-sparse categories. This study utilized seven
categories in the popular COCO dataset and three widespread weed species in
Michigan to evaluate the efficiency of a recent version of stable diffusion. In
detail, Stable diffusion was used to generate synthetic images belonging to
these classes; then, YOLOv8 models were trained based on these synthetic
images, whose performance was compared to the models trained on original
images. In addition, several techniques (e.g., Image-to-image translation,
Dreambooth, ControlNet) of Stable diffusion were leveraged for image generation
with different focuses. In spite of the overall results being disappointing,
promising results have been achieved in some classes, illustrating the
potential of stable diffusion models to improve the performance of detection
models, which represent more helpful information being conveyed into the models
by the generated images. This seminal study may expedite the adaption of stable
diffusion models to classification and detection tasks in different fields.
- Abstract(参考訳): 生成モデルは、コンピュータビジョンにおけるイメージリビジョンやオブジェクト検出から、より一般的な分野におけるインテリアデザインやアイデアイラストレーションまで、相対的なタスクに影響を与えている。
安定拡散は、テキストプロンプトや参照画像から詳細な詳細を持つ高解像度画像を生成するための、優れたモデルシリーズである。
特定のカテゴリ(例えば、車、人間、毎日のオブジェクト)の画像のバリエーションを高めるために、安定した拡散の能力をどのように活用するか、という興味深い話題になるでしょう。
本研究は、ミシガン州のCOCOデータセットと3種の広く分布する雑草の7つのカテゴリーを用いて、最近の安定拡散の効率を評価した。
さらに,これらのクラスに属する合成画像を生成するために安定拡散法を用いて,これらの合成画像に基づいてYOLOv8モデルを訓練した。
また,安定拡散の複数の技術(画像から画像への翻訳,ドリームブート,コントロールネットなど)を,焦点の異なる画像生成に活用した。
全体的な結果が失望しているにもかかわらず、いくつかのクラスでは有望な結果が得られ、安定した拡散モデルが検出モデルの性能を向上させる可能性を示し、生成した画像によってモデルに伝達されるより有用な情報を表す。
この基礎研究は、異なる分野における分類および検出タスクへの安定拡散モデルの適応を早める可能性がある。
関連論文リスト
- Comparative Analysis of Generative Models: Enhancing Image Synthesis with VAEs, GANs, and Stable Diffusion [0.0]
本稿では,変分オートエンコーダ(VAE),GAN(Generative Adversarial Networks),安定拡散(Stable Diffusion)の3つの主要な生成モデルについて検討する。
論文 参考訳(メタデータ) (2024-08-16T13:50:50Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。
これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。
本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:53Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Diffusion Art or Digital Forgery? Investigating Data Replication in
Diffusion Models [53.03978584040557]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。
フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。
論文 参考訳(メタデータ) (2022-12-07T18:58:02Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。