論文の概要: Training on Thin Air: Improve Image Classification with Generated Data
- arxiv url: http://arxiv.org/abs/2305.15316v1
- Date: Wed, 24 May 2023 16:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:21:11.749610
- Title: Training on Thin Air: Improve Image Classification with Generated Data
- Title(参考訳): 薄い空気のトレーニング:生成データによる画像分類の改善
- Authors: Yongchao Zhou, Hshmat Sahak, Jimmy Ba
- Abstract要約: Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。
生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
- 参考スコア(独自算出の注目度): 28.96941414724037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring high-quality data for training discriminative models is a crucial
yet challenging aspect of building effective predictive systems. In this paper,
we present Diffusion Inversion, a simple yet effective method that leverages
the pre-trained generative model, Stable Diffusion, to generate diverse,
high-quality training data for image classification. Our approach captures the
original data distribution and ensures data coverage by inverting images to the
latent space of Stable Diffusion, and generates diverse novel training images
by conditioning the generative model on noisy versions of these vectors. We
identify three key components that allow our generated images to successfully
supplant the original dataset, leading to a 2-3x enhancement in sample
complexity and a 6.5x decrease in sampling time. Moreover, our approach
consistently outperforms generic prompt-based steering methods and KNN
retrieval baseline across a wide range of datasets. Additionally, we
demonstrate the compatibility of our approach with widely-used data
augmentation techniques, as well as the reliability of the generated data in
supporting various neural architectures and enhancing few-shot learning.
- Abstract(参考訳): 識別モデルを訓練するための高品質なデータを取得することは、効果的な予測システムを構築する上で非常に難しい側面である。
本稿では,画像分類のための多種多様な高品質なトレーニングデータを生成するために,事前学習された生成モデルである安定拡散を利用した簡易かつ効果的な拡散反転法を提案する。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜伏空間に反転させることでデータカバレッジを保証し,これらのベクトルのノイズバージョンに生成モデルを条件づけることにより,多様な新しい訓練画像を生成する。
生成した画像が元のデータセットに取って代わることができ、サンプルの複雑さが2~3倍向上し、サンプリング時間が6.5倍減少する。
さらに,提案手法は,汎用的なプロンプトベースのステアリング手法とKNN検索ベースラインを多種多様なデータセットで一貫して上回っている。
さらに,広範に使用されているデータ拡張手法との互換性と,生成されたデータの信頼性を実証し,様々なニューラルアーキテクチャをサポートし,少ない学習能力を向上させる。
関連論文リスト
- A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Gradient Inversion of Federated Diffusion Models [4.1355611383748005]
拡散モデルは、非常に高解像度の画像データを生成する欠陥生成モデルになりつつある。
本稿では,勾配反転攻撃のプライバシーリスクについて検討する。
本稿では,未知データの最適化をコーディネートする三重最適化GIDM+を提案する。
論文 参考訳(メタデータ) (2024-05-30T18:00:03Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Learning-Based Biharmonic Augmentation for Point Cloud Classification [79.13962913099378]
Biharmonic Augmentation (BA)は、新しくて効率的なデータ拡張技術である。
BAは、既存の3D構造にスムーズな非剛性変形を与えることにより、点雲データを多様化する。
本稿では,先進的なオンライン強化システムであるAdvTuneについて紹介する。
論文 参考訳(メタデータ) (2023-11-10T14:04:49Z) - DiffuGen: Adaptable Approach for Generating Labeled Image Datasets using
Stable Diffusion Models [2.0935496890864207]
DiffuGenは、安定拡散モデルのパワーを利用してラベル付き画像データセットを効率的に作成する、シンプルで適応可能なアプローチである。
安定した拡散モデルを利用することで、我々のアプローチは生成されたデータセットの品質を保証するだけでなく、ラベル生成のための汎用的なソリューションも提供します。
論文 参考訳(メタデータ) (2023-09-01T04:42:03Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。