論文の概要: Stable Diffusion for Data Augmentation in COCO and Weed Datasets
- arxiv url: http://arxiv.org/abs/2312.03996v4
- Date: Sat, 22 Feb 2025 21:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:47:59.042827
- Title: Stable Diffusion for Data Augmentation in COCO and Weed Datasets
- Title(参考訳): COCOおよび雑草データセットにおけるデータ拡張のための安定拡散
- Authors: Boyang Deng,
- Abstract要約: 生成モデルは、コンピュータビジョンからインテリアデザインまで、さまざまなタスクに影響を与えている。強力な拡散モデルであるStable Diffusionは、テキストプロンプトや参照画像から複雑な詳細を持つ高解像度画像の作成を可能にする。
本研究は,7つの共通カテゴリーと3つの広く分布する雑草を評価した結果,安定拡散の有効性について検討した。
画像スパースデータセットの強化において,安定拡散の可能性を示した。
- 参考スコア(独自算出の注目度): 5.81198182644659
- License:
- Abstract: Generative models have increasingly impacted various tasks, from computer vision to interior design and beyond. Stable Diffusion, a powerful diffusion model, enables the creation of high-resolution images with intricate details from text prompts or reference images. An intriguing challenge lies in improving performance for small datasets with image-sparse categories. This study explores the effectiveness of Stable Diffusion by evaluating seven common categories and three widespread weed species. Synthetic images were generated using three Stable Diffusion-based techniques: Image-to-Image Translation, DreamBooth, and ControlNet, each with distinct focuses. Classification and detection tasks were then performed on these synthetic images, and their performance was compared to models trained on original images. Promising results were achieved for certain classes, demonstrating the potential of Stable Diffusion in enhancing image-sparse datasets. This foundational study may accelerate the adaptation of diffusion models across various domains.
- Abstract(参考訳): 生成モデルはコンピュータビジョンからインテリアデザインまで、様々なタスクに影響を与えている。
強力な拡散モデルである安定拡散は、テキストプロンプトや参照画像から複雑な詳細を持つ高解像度画像を作成することができる。
興味深い課題は、画像スパースカテゴリを持つ小さなデータセットのパフォーマンスを改善することだ。
本研究は,7つの共通カテゴリーと3つの広く分布する雑草を評価した結果,安定拡散の有効性について検討した。
画像から画像への変換、DreamBooth、ControlNetという3つの安定拡散に基づく技術を用いて合成画像を生成する。
その後、これらの合成画像上で分類および検出タスクを行い、その性能を原画像上で訓練されたモデルと比較した。
画像スパースデータセットの強化において,安定拡散の可能性を示した。
この基礎研究は、様々な領域にわたる拡散モデルの適応を加速させる可能性がある。
関連論文リスト
- Comparative Analysis of Generative Models: Enhancing Image Synthesis with VAEs, GANs, and Stable Diffusion [0.0]
本稿では,変分オートエンコーダ(VAE),GAN(Generative Adversarial Networks),安定拡散(Stable Diffusion)の3つの主要な生成モデルについて検討する。
論文 参考訳(メタデータ) (2024-08-16T13:50:50Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。
これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。
本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:53Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Diffusion Art or Digital Forgery? Investigating Data Replication in
Diffusion Models [53.03978584040557]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。
フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。
論文 参考訳(メタデータ) (2022-12-07T18:58:02Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。