論文の概要: Synthetic Data from Diffusion Models Improves ImageNet Classification
- arxiv url: http://arxiv.org/abs/2304.08466v1
- Date: Mon, 17 Apr 2023 17:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:04:04.612655
- Title: Synthetic Data from Diffusion Models Improves ImageNet Classification
- Title(参考訳): 拡散モデルからの合成データによる画像ネット分類の改善
- Authors: Shekoofeh Azizi, Simon Kornblith, Chitwan Saharia, Mohammad Norouzi,
David J. Fleet
- Abstract要約: 大規模テキストから画像への拡散モデルは、クラス条件付きモデルを生成するために微調整することができる。
ImageNetトレーニングセットを結果モデルのサンプルで拡張すると、ImageNetの分類精度が大幅に向上する。
- 参考スコア(独自算出の注目度): 47.999055841125156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep generative models are becoming increasingly powerful, now generating
diverse high fidelity photo-realistic samples given text prompts. Have they
reached the point where models of natural images can be used for generative
data augmentation, helping to improve challenging discriminative tasks? We show
that large-scale text-to image diffusion models can be fine-tuned to produce
class conditional models with SOTA FID (1.76 at 256x256 resolution) and
Inception Score (239 at 256x256). The model also yields a new SOTA in
Classification Accuracy Scores (64.96 for 256x256 generative samples, improving
to 69.24 for 1024x1024 samples). Augmenting the ImageNet training set with
samples from the resulting models yields significant improvements in ImageNet
classification accuracy over strong ResNet and Vision Transformer baselines.
- Abstract(参考訳): 深層生成モデルはますます強力になり、テキストプロンプトが与えられた多種多様な高忠実な写真リアルなサンプルを生成している。
彼らは、自然画像のモデルを生成的データ拡張に利用し、差別的な課題を改善するのに役立ったか?
本研究では,soma fid (1.76 at 256x256 resolution) とインセプションスコア (239 at 256x256) を持つクラス条件モデルを作成するために,大規模テキストから画像への拡散モデルを微調整できることを示す。
このモデルはまた、分類精度スコアの新しいSOTA(256x256生成サンプルの64.96、1024x1024サンプルの69.24)も得られる。
ImageNetトレーニングセットを結果モデルのサンプルで拡張すると、強力なResNetとVision Transformerベースラインよりも、ImageNetの分類精度が大幅に向上する。
関連論文リスト
- Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文 参考訳(メタデータ) (2024-03-27T17:23:39Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - Fake it till you make it: Learning transferable representations from
synthetic ImageNet clones [30.264601433216246]
ImageNetクローンは、合成画像と実画像で訓練されたモデルとのギャップの大部分を埋めることができることを示す。
合成画像上で訓練されたモデルは,強い一般化特性を示し,実際のデータで訓練されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-12-16T11:44:01Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Diffusion Models Beat GANs on Image Synthesis [4.919647298882951]
拡散モデルでは,現在の生成モデルよりも画像サンプルの品質が向上することを示す。
条件付き画像合成では, 分類器の指導により, サンプル品質がさらに向上する。
ImageNet 128$times$128で2.97、ImageNet 256$times$256で4.59、ImageNet 512$times$512で7.72のFIDを達成し、サンプル当たり25フォワードパスがわずかであってもBigGAN-deepにマッチします。
論文 参考訳(メタデータ) (2021-05-11T17:50:24Z) - Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文 参考訳(メタデータ) (2020-06-16T09:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。