Fugu-MT 論文翻訳(概要): Generative Modeling with Explicit Memory

論文の概要: Generative Modeling with Explicit Memory

arxiv url: http://arxiv.org/abs/2412.08781v1
Date: Wed, 11 Dec 2024 21:23:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:55.992903
Title: Generative Modeling with Explicit Memory
Title（参考訳）: 明示的メモリを用いた生成モデリング
Authors: Yi Tang, Peng Sun, Zhenglin Cheng, Tao Lin,
Abstract要約: 近年の研究では、深部生成拡散モデルにおける認知過程が、データ分布から意味情報を暗黙的に学習し記憶していることが示されている。 textbfExplicit textbfMemory (GMem) を用いた textbfGenerative textbfModeling を導入する。このアプローチは、データ分散からの意味情報を保存し、学習と一般化のためのニューラルネットワーク容量への依存を減らす。
参考スコア（独自算出の注目度）: 6.515635754669283
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies indicate that the denoising process in deep generative diffusion models implicitly learns and memorizes semantic information from the data distribution. These findings suggest that capturing more complex data distributions requires larger neural networks, leading to a substantial increase in computational demands, which in turn become the primary bottleneck in both training and inference of diffusion models. To this end, we introduce \textbf{G}enerative \textbf{M}odeling with \textbf{E}xplicit \textbf{M}emory (GMem), leveraging an external memory bank in both training and sampling phases of diffusion models. This approach preserves semantic information from data distributions, reducing reliance on neural network capacity for learning and generalizing across diverse datasets. The results are significant: our GMem enhances both training, sampling efficiency, and generation quality. For instance, on ImageNet at $256 \times 256$ resolution, GMem accelerates SiT training by over $46.7\times$, achieving the performance of a SiT model trained for $7M$ steps in fewer than $150K$ steps. Compared to the most efficient existing method, REPA, GMem still offers a $16\times$ speedup, attaining an FID score of 5.75 within $250K$ steps, whereas REPA requires over $4M$ steps. Additionally, our method achieves state-of-the-art generation quality, with an FID score of {3.56} without classifier-free guidance on ImageNet $256\times256$. Our code is available at \url{https://github.com/LINs-lab/GMem}.
Abstract（参考訳）: 近年の研究では、深部生成拡散モデルにおける認知過程が、データ分布から意味情報を暗黙的に学習し記憶していることが示されている。これらの結果は、より複雑なデータ分布をキャプチャするには、より大きなニューラルネットワークが必要であることを示唆し、計算要求が大幅に増加し、結果として、拡散モデルのトレーニングと推論の両方において主要なボトルネックとなることを示唆している。この目的のために、拡散モデルのトレーニングおよびサンプリングフェーズにおいて外部メモリバンクを活用するために、 \textbf{G}enerative \textbf{M}odeling with \textbf{E}xplicit \textbf{M}emory (GMem)を導入する。このアプローチは、データ分散からの意味情報を保存し、さまざまなデータセットをまたいだ学習と一般化のためのニューラルネットワーク容量への依存を減らす。 GMemはトレーニング,サンプリング効率,生成品質の両方を向上させる。例えば、ImageNetで256 \times 256$の解像度でGMemはSiTトレーニングを46.7\times$で加速し、$150K以下のステップで7M$ステップでトレーニングされたSiTモデルのパフォーマンスを達成する。最も効率的な既存の方法と比較しても、GMemは16ドル(約1万2000円)のスピードアップを提供しており、FIDスコアは250Kドル(約2万5000円)で575ドル(約2万5000円)に達する。また,FIDスコアは {3.56} であり,ImageNet 256\times256$ の分類なし指導は不要である。我々のコードは \url{https://github.com/LINs-lab/GMem} で入手できる。

関連論文リスト

Extreme Learning Machines for Exoplanet Simulations: A Faster, Lightweight Alternative to Deep Learning [0.0]
Extreme Learning Machine (ELM) は、複雑な物理モデルを高速化するための軽量で非段階的な機械学習アルゴリズムである。異なるデータ構造を持つ2つのテストケースにおいて,EMMサロゲートモデルの評価を行った。
論文参考訳（メタデータ） (2025-06-24T14:46:23Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training [8.824077990271503]
一般化から記憶への移行におけるトレーニングダイナミクスの役割について検討する。私たちは、$tau_mathrmmem$がトレーニングセットサイズ$n$で線形的に増加するのに対して、$tau_mathrmgen$は一定であることに気付きました。 n$がモデル依存しきい値よりも大きくなると、無限のトレーニング時間でオーバーフィットが消える。
論文参考訳（メタデータ） (2025-05-23T08:58:47Z)
FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling [13.275724439963188]
FreCaSはサンプリングプロセスをカスケードステージに分解し、分解能が徐々に増加し周波数帯域が拡大する。 FreCaSは、画像の品質と生成速度において最先端の手法を大幅に上回っている。
論文参考訳（メタデータ） (2024-10-24T03:56:44Z)
Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文参考訳（メタデータ） (2024-10-11T05:03:56Z)
FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文参考訳（メタデータ） (2024-09-28T08:57:17Z)
Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文参考訳（メタデータ） (2023-12-20T18:08:02Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)
LEMON: Lossless model expansion [43.40389747029802]
ディープニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急増するパフォーマンスにとって重要なものだ。私たちは、より小さいがトレーニング済みのモデルの重みを使ってスケールされたモデルを初期化するレシピである、textbfL$ossl$textbfE$ss $textbfMO$del Expansio$textbfN$ (LEMON)を提示します。 LEMONは,視覚変換器の計算コストを56.7%削減し,BERTの33.2%削減した。
論文参考訳（メタデータ） (2023-10-12T03:02:41Z)
Two Independent Teachers are Better Role Model [7.001845833295753]
我々は3D-DenseUNetと呼ばれる新しいディープラーニングモデルを提案する。ダウンサンプリングにおけるグローバルアグリゲーションブロックとして機能し、空間情報損失の問題を解決する。また,ラベル予測の代わりにモデル重みを要約した「2つの独立教師」という手法を提案する。
論文参考訳（メタデータ） (2023-06-09T08:22:41Z)
$\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文参考訳（メタデータ） (2023-03-26T16:39:44Z)
Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-02-09T13:46:42Z)
Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2022-12-09T18:57:37Z)
Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文参考訳（メタデータ） (2022-02-01T18:15:24Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)
DeepObliviate: A Powerful Charm for Erasing Data Residual Memory in Deep Neural Networks [7.687838702806964]
DeepObliviateと呼ばれるアプローチを提案し、マシンアンラーニングを効率的に実装します。本手法は,中間モデルをハードディスク上に格納することで,元のトレーニングプロセスを改善する。ゼロから再トレーニングする方法と比較して、99.0%、95.0%、91.9%、96.7%、74.1%の精度と66.7$times$、75.0$times$、33.3$times$、29.4$times$、13.7$times$ speedupsが得られる。
論文参考訳（メタデータ） (2021-05-13T12:02:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。