論文の概要: DemoFusion: Democratising High-Resolution Image Generation With No $$$
- arxiv url: http://arxiv.org/abs/2311.16973v1
- Date: Fri, 24 Nov 2023 00:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:42:45.160445
- Title: DemoFusion: Democratising High-Resolution Image Generation With No $$$
- Title(参考訳): デモフュージョン:高解像度画像生成を$$$なしで民主化
- Authors: Ruoyi Du, Dongliang Chang, Timothy Hospedales, Yi-Zhe Song, Zhanyu Ma
- Abstract要約: 生成人工知能(GenAI)による高解像度画像生成は大きな可能性を秘めているが、訓練に必要な巨額の資本投資のため、少数の大企業に集中化が進んでいる。
本稿では,ハイレゾ世代のフロンティアを広範に確保しつつ,高レゾリューションなGenAIのフロンティアを前進させることにより,高レゾリューションなGenAIの民主化を目指す。
- 参考スコア(独自算出の注目度): 75.38688090593867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution image generation with Generative Artificial Intelligence
(GenAI) has immense potential but, due to the enormous capital investment
required for training, it is increasingly centralised to a few large
corporations, and hidden behind paywalls. This paper aims to democratise
high-resolution GenAI by advancing the frontier of high-resolution generation
while remaining accessible to a broad audience. We demonstrate that existing
Latent Diffusion Models (LDMs) possess untapped potential for higher-resolution
image generation. Our novel DemoFusion framework seamlessly extends open-source
GenAI models, employing Progressive Upscaling, Skip Residual, and Dilated
Sampling mechanisms to achieve higher-resolution image generation. The
progressive nature of DemoFusion requires more passes, but the intermediate
results can serve as "previews", facilitating rapid prompt iteration.
- Abstract(参考訳): 生成人工知能(GenAI)による高解像度画像生成は、大きな可能性を持っているが、トレーニングに必要な巨額の資本投資のため、少数の大企業に集中化され、ペイウォールの後ろに隠れている。
本稿では,ハイレゾ世代のフロンティアを広範に確保しつつ,高レゾリューションなGenAIを民主化することを目的とする。
既存の潜在拡散モデル (LDM) は高解像度画像生成のための未解決ポテンシャルを有することを示す。
新しいdemofusionフレームワークはオープンソースのgenaiモデルをシームレスに拡張し,プログレッシブアップスケーリング,スキップ残差,拡張サンプリング機構を用いて高分解能画像生成を実現する。
DemoFusionのプログレッシブな性質はより多くのパスを必要とするが、中間結果は"プレビュー"として機能し、迅速な反復を容易にする。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning [38.560064789022704]
MegaFusionは、既存の拡散ベースのテキスト画像モデルを拡張して、効率的な高解像度生成を実現している。
我々は、異なる解像度でデノナイジングプロセスをブリッジするために、革新的なトランケートとリレー戦略を採用しています。
拡張畳み込みとノイズ再スケジューリングを統合することで、より高分解能のモデルに先行するモデルをさらに適応させる。
論文 参考訳(メタデータ) (2024-08-20T16:53:34Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。
本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - A Bayesian Non-parametric Approach to Generative Models: Integrating
Variational Autoencoder and Generative Adversarial Networks using Wasserstein
and Maximum Mean Discrepancy [2.966338139852619]
GAN(Generative Adversarial Network)とVAE(VAE)は、最も顕著で広く研究されている生成モデルである。
ベイズ的非パラメトリック(BNP)アプローチを用いて、GANとVAEを融合する。
本稿では,GANの識別能力とVAEの再構成能力とを融合させることにより,多種多様な生成タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-27T08:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。