論文の概要: Home-made Diffusion Model from Scratch to Hatch
- arxiv url: http://arxiv.org/abs/2509.06068v1
- Date: Sun, 07 Sep 2025 14:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.844301
- Title: Home-made Diffusion Model from Scratch to Hatch
- Title(参考訳): スクラッチからハッチへの自家製拡散モデル
- Authors: Shih-Ying Yeh,
- Abstract要約: ホームメイド拡散モデル(Home-made Diffusion Model, HDM)は、消費者向けハードウェアのトレーニングに最適化された、効率的かつ強力なテキスト-画像拡散モデルである。
HDMは競争力のある1024x1024世代の品質を実現し、トレーニングコストは535-620ドルと極めて低い。
- 参考スコア(独自算出の注目度): 0.9383683724544296
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Home-made Diffusion Model (HDM), an efficient yet powerful text-to-image diffusion model optimized for training (and inferring) on consumer-grade hardware. HDM achieves competitive 1024x1024 generation quality while maintaining a remarkably low training cost of $535-620 using four RTX5090 GPUs, representing a significant reduction in computational requirements compared to traditional approaches. Our key contributions include: (1) Cross-U-Transformer (XUT), a novel U-shape transformer, Cross-U-Transformer (XUT), that employs cross-attention for skip connections, providing superior feature integration that leads to remarkable compositional consistency; (2) a comprehensive training recipe that incorporates TREAD acceleration, a novel shifted square crop strategy for efficient arbitrary aspect-ratio training, and progressive resolution scaling; and (3) an empirical demonstration that smaller models (343M parameters) with carefully crafted architectures can achieve high-quality results and emergent capabilities, such as intuitive camera control. Our work provides an alternative paradigm of scaling, demonstrating a viable path toward democratizing high-quality text-to-image generation for individual researchers and smaller organizations with limited computational resources.
- Abstract(参考訳): 本稿では,HDM(Home-made Diffusion Model)を紹介する。HDM(Home-made Diffusion Model)は,コンシューマグレードハードウェア上でのトレーニング(および推論)に最適化された,効率的かつ強力なテキスト-画像拡散モデルである。
HDMは競争力のある1024x1024生成品質を実現し、4つのRTX5090 GPUを使用して535-620のトレーニングコストを著しく低く維持する。
本研究の主な貢献は,(1)新規なU字変換器であるCross-U字変換器 (XUT) とクロスアテンションを用いて接続をスキップし,優れた構成整合性をもたらす機能統合を提供するクロスアテンション (XUT) ,(2) TREAD加速度を組み込んだ総合的なトレーニングレシピ, 効率的な任意のアスペクト比トレーニングとプログレッシブ・レゾリューション・スケールのための新規なシフト立方作物戦略,(3) 慎重に構築されたアーキテクチャを持つ小型モデル(343Mパラメータ)が,高品質な結果と創発的能力(直感的なカメラ制御など)を達成できる実証実験である。
我々の研究はスケーリングの代替パラダイムを提供し、個々の研究者や限られた計算資源を持つ小規模組織に対して高品質のテキスト・ツー・イメージ生成を民主化するための実行可能な道筋を示す。
関連論文リスト
- Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction [91.09318592542509]
この研究は、視覚自己回帰モデリングにおける残差予測パラダイムに挑戦する。
新しいフレキシブルなVisual AutoRegressiveイメージ生成パラダイムを提供する。
このシンプルで直感的なアプローチは、視覚分布を素早く学習し、生成プロセスをより柔軟で適応可能にします。
論文 参考訳(メタデータ) (2025-02-27T17:39:17Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - Dual-former: Hybrid Self-attention Transformer for Efficient Image
Restoration [6.611849560359801]
本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。
実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。
単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
論文 参考訳(メタデータ) (2022-10-03T16:39:21Z) - Towards Faster and Stabilized GAN Training for High-fidelity Few-shot
Image Synthesis [21.40315235087551]
1024*1024解像度で優れた品質を得る軽量GAN構造を提案します。
データとコンピューティングの予算が限られている場合、私たちのモデルが最先端のstylegan2よりも優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2021-01-12T22:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。