論文の概要: SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training
- arxiv url: http://arxiv.org/abs/2412.09619v1
- Date: Thu, 12 Dec 2024 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:05.917534
- Title: SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training
- Title(参考訳): SnapGen: 効率的なアーキテクチャとトレーニングを備えたモバイルデバイスのための高解像度テキスト・ツー・イメージモデル
- Authors: Dongting Hu, Jierun Chen, Xijie Huang, Huseyin Coskun, Arpit Sahni, Aarush Gupta, Anujraaj Goyal, Dishani Lahiri, Rajesh Singh, Yerlan Idelbayev, Junli Cao, Yanyu Li, Kwang-Ting Cheng, S. -H. Gary Chan, Mingming Gong, Sergey Tulyakov, Anil Kag, Yanwu Xu, Jian Ren,
- Abstract要約: T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
- 参考スコア(独自算出の注目度): 77.681908636429
- License:
- Abstract: Existing text-to-image (T2I) diffusion models face several limitations, including large model sizes, slow runtime, and low-quality generation on mobile devices. This paper aims to address all of these challenges by developing an extremely small and fast T2I model that generates high-resolution and high-quality images on mobile platforms. We propose several techniques to achieve this goal. First, we systematically examine the design choices of the network architecture to reduce model parameters and latency, while ensuring high-quality generation. Second, to further improve generation quality, we employ cross-architecture knowledge distillation from a much larger model, using a multi-level approach to guide the training of our model from scratch. Third, we enable a few-step generation by integrating adversarial guidance with knowledge distillation. For the first time, our model SnapGen, demonstrates the generation of 1024x1024 px images on a mobile device around 1.4 seconds. On ImageNet-1K, our model, with only 372M parameters, achieves an FID of 2.06 for 256x256 px generation. On T2I benchmarks (i.e., GenEval and DPG-Bench), our model with merely 379M parameters, surpasses large-scale models with billions of parameters at a significantly smaller size (e.g., 7x smaller than SDXL, 14x smaller than IF-XL).
- Abstract(参考訳): 既存のテキスト・ツー・イメージ(T2I)拡散モデルは、大きなモデルサイズ、遅いランタイム、モバイルデバイスでの低品質生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度で高品質な画像を生成する超小型かつ高速なT2Iモデルを開発することにより,これらの課題に対処することを目的とする。
我々はこの目標を達成するためにいくつかの手法を提案する。
まず,ネットワークアーキテクチャの設計選択を体系的に検討し,モデルパラメータと遅延を低減し,高品質な生成を保証する。
第2に、生成品質をさらに向上するため、我々は、より大規模なモデルからのクロスアーキテクチャ知識蒸留を採用し、マルチレベルアプローチを用いて、モデルのトレーニングをスクラッチからガイドする。
第3に、敵の指導と知識の蒸留を統合することで、数段階の生成を可能にする。
当社のモデルであるSnapGenは,モバイルデバイス上で約1.4秒で1024x1024px画像を生成することを初めて実証しています。
ImageNet-1Kでは、372Mパラメータしか持たないモデルで256x256pxのFIDを実現している。
T2I ベンチマーク(すなわち GenEval と DPG-Bench)では、379M のパラメータしか持たないモデルが数十億のパラメータを持つ大規模モデルよりはるかに小さいサイズ(例:SDXL より7倍小さい、IF-XL より14倍小さい)である。
関連論文リスト
- M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、実際、品質と効率の両面において、潜在的なアプローチと非常に競合する可能性があることを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文 参考訳(メタデータ) (2024-10-25T06:20:06Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - Matryoshka Diffusion Models [38.26966802461602]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - MicroISP: Processing 32MP Photos on Mobile Devices with Deep Learning [114.66037224769005]
エッジデバイスに特化して設計された新しいMicroISPモデルを提案する。
提案したソリューションは,モバイルMLライブラリを使用して,最新のスマートフォン上で最大32MPの写真を処理できる。
モデルのアーキテクチャは柔軟で、計算能力の異なるデバイスに複雑性を調整することができる。
論文 参考訳(メタデータ) (2022-11-08T17:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。