論文の概要: Generative Modeling with Explicit Memory
- arxiv url: http://arxiv.org/abs/2412.08781v1
- Date: Wed, 11 Dec 2024 21:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:38.318978
- Title: Generative Modeling with Explicit Memory
- Title(参考訳): 明示的メモリを用いた生成モデリング
- Authors: Yi Tang, Peng Sun, Zhenglin Cheng, Tao Lin,
- Abstract要約: 近年の研究では、深部生成拡散モデルにおける認知過程が、データ分布から意味情報を暗黙的に学習し記憶していることが示されている。
textbfExplicit textbfMemory (GMem) を用いた textbfGenerative textbfModeling を導入する。
このアプローチは、データ分散からの意味情報を保存し、学習と一般化のためのニューラルネットワーク容量への依存を減らす。
- 参考スコア(独自算出の注目度): 6.515635754669283
- License:
- Abstract: Recent studies indicate that the denoising process in deep generative diffusion models implicitly learns and memorizes semantic information from the data distribution. These findings suggest that capturing more complex data distributions requires larger neural networks, leading to a substantial increase in computational demands, which in turn become the primary bottleneck in both training and inference of diffusion models. To this end, we introduce \textbf{G}enerative \textbf{M}odeling with \textbf{E}xplicit \textbf{M}emory (GMem), leveraging an external memory bank in both training and sampling phases of diffusion models. This approach preserves semantic information from data distributions, reducing reliance on neural network capacity for learning and generalizing across diverse datasets. The results are significant: our GMem enhances both training, sampling efficiency, and generation quality. For instance, on ImageNet at $256 \times 256$ resolution, GMem accelerates SiT training by over $46.7\times$, achieving the performance of a SiT model trained for $7M$ steps in fewer than $150K$ steps. Compared to the most efficient existing method, REPA, GMem still offers a $16\times$ speedup, attaining an FID score of 5.75 within $250K$ steps, whereas REPA requires over $4M$ steps. Additionally, our method achieves state-of-the-art generation quality, with an FID score of {3.56} without classifier-free guidance on ImageNet $256\times256$. Our code is available at \url{https://github.com/LINs-lab/GMem}.
- Abstract(参考訳): 近年の研究では、深部生成拡散モデルにおける認知過程が、データ分布から意味情報を暗黙的に学習し記憶していることが示されている。
これらの結果は、より複雑なデータ分布をキャプチャするには、より大きなニューラルネットワークが必要であることを示唆し、計算要求が大幅に増加し、結果として、拡散モデルのトレーニングと推論の両方において主要なボトルネックとなることを示唆している。
この目的のために、拡散モデルのトレーニングおよびサンプリングフェーズにおいて外部メモリバンクを活用するために、 \textbf{G}enerative \textbf{M}odeling with \textbf{E}xplicit \textbf{M}emory (GMem)を導入する。
このアプローチは、データ分散からの意味情報を保存し、さまざまなデータセットをまたいだ学習と一般化のためのニューラルネットワーク容量への依存を減らす。
GMemはトレーニング,サンプリング効率,生成品質の両方を向上させる。
例えば、ImageNetで256 \times 256$の解像度でGMemはSiTトレーニングを46.7\times$で加速し、$150K以下のステップで7M$ステップでトレーニングされたSiTモデルのパフォーマンスを達成する。
最も効率的な既存の方法と比較しても、GMemは16ドル(約1万2000円)のスピードアップを提供しており、FIDスコアは250Kドル(約2万5000円)で575ドル(約2万5000円)に達する。
また,FIDスコアは {3.56} であり,ImageNet 256\times256$ の分類なし指導は不要である。
我々のコードは \url{https://github.com/LINs-lab/GMem} で入手できる。
関連論文リスト
- FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling [13.275724439963188]
FreCaSはサンプリングプロセスをカスケードステージに分解し、分解能が徐々に増加し周波数帯域が拡大する。
FreCaSは、画像の品質と生成速度において最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-24T03:56:44Z) - Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。
我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。
私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文 参考訳(メタデータ) (2024-10-11T05:03:56Z) - FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。
我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。
我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文 参考訳(メタデータ) (2023-12-20T18:08:02Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。
本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。
我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-09T13:46:42Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。