Fugu-MT 論文翻訳(概要): GMem: A Modular Approach for Ultra-Efficient Generative Models

論文の概要: GMem: A Modular Approach for Ultra-Efficient Generative Models

arxiv url: http://arxiv.org/abs/2412.08781v2
Date: Tue, 11 Feb 2025 23:05:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 15:57:39.497797
Title: GMem: A Modular Approach for Ultra-Efficient Generative Models
Title（参考訳）: GMem:超効率的な生成モデルのためのモジュラーアプローチ
Authors: Yi Tang, Peng Sun, Zhenglin Cheng, Tao Lin,
Abstract要約: GMem:超効率的な生成モデルのためのモジュラーアプローチを紹介する。我々のアプローチであるGMemは、メモリ容量をモデルから切り離し、別のイミュータブルメモリセットとして実装する。 ImageNetの256倍256ドルの解像度で、GMemはSiTに比べて50倍のトレーニングスピードアップを達成した。
参考スコア（独自算出の注目度）: 6.515635754669283
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies indicate that the denoising process in deep generative diffusion models implicitly learns and memorizes semantic information from the data distribution. These findings suggest that capturing more complex data distributions requires larger neural networks, leading to a substantial increase in computational demands, which in turn become the primary bottleneck in both training and inference of diffusion models. To this end, we introduce GMem: A Modular Approach for Ultra-Efficient Generative Models. Our approach GMem decouples the memory capacity from model and implements it as a separate, immutable memory set that preserves the essential semantic information in the data. The results are significant: GMem enhances both training, sampling efficiency, and diversity generation. This design on one hand reduces the reliance on network for memorize complex data distribution and thus enhancing both training and sampling efficiency. On ImageNet at $256 \times 256$ resolution, GMem achieves a $50\times$ training speedup compared to SiT, reaching FID $=7.66$ in fewer than $28$ epochs ($\sim 4$ hours training time), while SiT requires $1400$ epochs. Without classifier-free guidance, GMem achieves state-of-the-art (SoTA) performance FID $=1.53$ in $160$ epochs with only $\sim 20$ hours of training, outperforming LightningDiT which requires $800$ epochs and $\sim 95$ hours to attain FID $=2.17$.
Abstract（参考訳）: 近年の研究では、深部生成拡散モデルにおける認知過程が、データ分布から意味情報を暗黙的に学習し記憶していることが示されている。これらの結果は、より複雑なデータ分布をキャプチャするには、より大きなニューラルネットワークが必要であることを示唆し、計算要求が大幅に増加し、結果として、拡散モデルのトレーニングと推論の両方において主要なボトルネックとなることを示唆している。そこで我々は, GMem: A Modular Approach for Ultra-Efficient Generative Modelsを紹介する。我々のアプローチであるGMemは、メモリ容量をモデルから切り離し、データに不可欠なセマンティック情報を保持する独立した不変メモリセットとして実装する。 GMemはトレーニング、サンプリング効率、多様性の生成を増強する。この設計により、複雑なデータ分布を記憶するためのネットワークへの依存を減らすことができ、トレーニングとサンプリングの効率が向上する。 ImageNetの$256 \times 256$解像度では、GMemはSiTと比較して50\times$のトレーニングスピードアップを達成した。分類器なしのガイダンスがなければ、GMemは、FID $=1.53$ in $160$ epochs with only $\sim 20$ hours of training, out Performance LightningDiT that requires $800$ epochs and $\sim 95$ hours to able FID $=2.17$を達成できる。

関連論文リスト

Extreme Learning Machines for Exoplanet Simulations: A Faster, Lightweight Alternative to Deep Learning [0.0]
Extreme Learning Machine (ELM) は、複雑な物理モデルを高速化するための軽量で非段階的な機械学習アルゴリズムである。異なるデータ構造を持つ2つのテストケースにおいて,EMMサロゲートモデルの評価を行った。
論文参考訳（メタデータ） (2025-06-24T14:46:23Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training [8.824077990271503]
一般化から記憶への移行におけるトレーニングダイナミクスの役割について検討する。私たちは、$tau_mathrmmem$がトレーニングセットサイズ$n$で線形的に増加するのに対して、$tau_mathrmgen$は一定であることに気付きました。 n$がモデル依存しきい値よりも大きくなると、無限のトレーニング時間でオーバーフィットが消える。
論文参考訳（メタデータ） (2025-05-23T08:58:47Z)
FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling [13.275724439963188]
FreCaSはサンプリングプロセスをカスケードステージに分解し、分解能が徐々に増加し周波数帯域が拡大する。 FreCaSは、画像の品質と生成速度において最先端の手法を大幅に上回っている。
論文参考訳（メタデータ） (2024-10-24T03:56:44Z)
Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文参考訳（メタデータ） (2024-10-11T05:03:56Z)
FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文参考訳（メタデータ） (2024-09-28T08:57:17Z)
Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文参考訳（メタデータ） (2023-12-20T18:08:02Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)
LEMON: Lossless model expansion [43.40389747029802]
ディープニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急増するパフォーマンスにとって重要なものだ。私たちは、より小さいがトレーニング済みのモデルの重みを使ってスケールされたモデルを初期化するレシピである、textbfL$ossl$textbfE$ss $textbfMO$del Expansio$textbfN$ (LEMON)を提示します。 LEMONは,視覚変換器の計算コストを56.7%削減し,BERTの33.2%削減した。
論文参考訳（メタデータ） (2023-10-12T03:02:41Z)
Two Independent Teachers are Better Role Model [7.001845833295753]
我々は3D-DenseUNetと呼ばれる新しいディープラーニングモデルを提案する。ダウンサンプリングにおけるグローバルアグリゲーションブロックとして機能し、空間情報損失の問題を解決する。また,ラベル予測の代わりにモデル重みを要約した「2つの独立教師」という手法を提案する。
論文参考訳（メタデータ） (2023-06-09T08:22:41Z)
$\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文参考訳（メタデータ） (2023-03-26T16:39:44Z)
Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-02-09T13:46:42Z)
Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2022-12-09T18:57:37Z)
Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文参考訳（メタデータ） (2022-02-01T18:15:24Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)
DeepObliviate: A Powerful Charm for Erasing Data Residual Memory in Deep Neural Networks [7.687838702806964]
DeepObliviateと呼ばれるアプローチを提案し、マシンアンラーニングを効率的に実装します。本手法は,中間モデルをハードディスク上に格納することで,元のトレーニングプロセスを改善する。ゼロから再トレーニングする方法と比較して、99.0%、95.0%、91.9%、96.7%、74.1%の精度と66.7$times$、75.0$times$、33.3$times$、29.4$times$、13.7$times$ speedupsが得られる。
論文参考訳（メタデータ） (2021-05-13T12:02:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。