論文の概要: GMem: A Modular Approach for Ultra-Efficient Generative Models
- arxiv url: http://arxiv.org/abs/2412.08781v2
- Date: Tue, 11 Feb 2025 23:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:42.632305
- Title: GMem: A Modular Approach for Ultra-Efficient Generative Models
- Title(参考訳): GMem:超効率的な生成モデルのためのモジュラーアプローチ
- Authors: Yi Tang, Peng Sun, Zhenglin Cheng, Tao Lin,
- Abstract要約: GMem:超効率的な生成モデルのためのモジュラーアプローチを紹介する。
我々のアプローチであるGMemは、メモリ容量をモデルから切り離し、別のイミュータブルメモリセットとして実装する。
ImageNetの256倍256ドルの解像度で、GMemはSiTに比べて50倍のトレーニングスピードアップを達成した。
- 参考スコア(独自算出の注目度): 6.515635754669283
- License:
- Abstract: Recent studies indicate that the denoising process in deep generative diffusion models implicitly learns and memorizes semantic information from the data distribution. These findings suggest that capturing more complex data distributions requires larger neural networks, leading to a substantial increase in computational demands, which in turn become the primary bottleneck in both training and inference of diffusion models. To this end, we introduce GMem: A Modular Approach for Ultra-Efficient Generative Models. Our approach GMem decouples the memory capacity from model and implements it as a separate, immutable memory set that preserves the essential semantic information in the data. The results are significant: GMem enhances both training, sampling efficiency, and diversity generation. This design on one hand reduces the reliance on network for memorize complex data distribution and thus enhancing both training and sampling efficiency. On ImageNet at $256 \times 256$ resolution, GMem achieves a $50\times$ training speedup compared to SiT, reaching FID $=7.66$ in fewer than $28$ epochs ($\sim 4$ hours training time), while SiT requires $1400$ epochs. Without classifier-free guidance, GMem achieves state-of-the-art (SoTA) performance FID $=1.53$ in $160$ epochs with only $\sim 20$ hours of training, outperforming LightningDiT which requires $800$ epochs and $\sim 95$ hours to attain FID $=2.17$.
- Abstract(参考訳): 近年の研究では、深部生成拡散モデルにおける認知過程が、データ分布から意味情報を暗黙的に学習し記憶していることが示されている。
これらの結果は、より複雑なデータ分布をキャプチャするには、より大きなニューラルネットワークが必要であることを示唆し、計算要求が大幅に増加し、結果として、拡散モデルのトレーニングと推論の両方において主要なボトルネックとなることを示唆している。
そこで我々は, GMem: A Modular Approach for Ultra-Efficient Generative Modelsを紹介する。
我々のアプローチであるGMemは、メモリ容量をモデルから切り離し、データに不可欠なセマンティック情報を保持する独立した不変メモリセットとして実装する。
GMemはトレーニング、サンプリング効率、多様性の生成を増強する。
この設計により、複雑なデータ分布を記憶するためのネットワークへの依存を減らすことができ、トレーニングとサンプリングの効率が向上する。
ImageNetの$256 \times 256$解像度では、GMemはSiTと比較して50\times$のトレーニングスピードアップを達成した。
分類器なしのガイダンスがなければ、GMemは、FID $=1.53$ in $160$ epochs with only $\sim 20$ hours of training, out Performance LightningDiT that requires $800$ epochs and $\sim 95$ hours to able FID $=2.17$を達成できる。
関連論文リスト
- Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - LEMON: Lossless model expansion [43.40389747029802]
ディープニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急増するパフォーマンスにとって重要なものだ。
私たちは、より小さいがトレーニング済みのモデルの重みを使ってスケールされたモデルを初期化するレシピである、textbfL$ossl$textbfE$ss $textbfMO$del Expansio$textbfN$ (LEMON)を提示します。
LEMONは,視覚変換器の計算コストを56.7%削減し,BERTの33.2%削減した。
論文 参考訳(メタデータ) (2023-10-12T03:02:41Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。
本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。
我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-09T13:46:42Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - DeepObliviate: A Powerful Charm for Erasing Data Residual Memory in Deep
Neural Networks [7.687838702806964]
DeepObliviateと呼ばれるアプローチを提案し、マシンアンラーニングを効率的に実装します。
本手法は,中間モデルをハードディスク上に格納することで,元のトレーニングプロセスを改善する。
ゼロから再トレーニングする方法と比較して、99.0%、95.0%、91.9%、96.7%、74.1%の精度と66.7$times$、75.0$times$、33.3$times$、29.4$times$、13.7$times$ speedupsが得られる。
論文 参考訳(メタデータ) (2021-05-13T12:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。