論文の概要: Efficient Generative Model Training via Embedded Representation Warmup
- arxiv url: http://arxiv.org/abs/2504.10188v1
- Date: Mon, 14 Apr 2025 12:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:21.565085
- Title: Efficient Generative Model Training via Embedded Representation Warmup
- Title(参考訳): 埋め込み表現ワームアップによる効率的な生成モデルトレーニング
- Authors: Deyuan Liu, Peng Sun, Xufeng Li, Tao Lin,
- Abstract要約: 拡散モデルは高次元データを生成するのに優れるが、自己教師付き手法に比べて訓練効率と表現品質に劣る。
トレーニング中に高品質で意味豊かな表現を不活用すること。
本稿では,Embeded Representation Warmup (ERW)を提案する。
- 参考スコア(独自算出の注目度): 6.783363935446626
- License:
- Abstract: Diffusion models excel at generating high-dimensional data but fall short in training efficiency and representation quality compared to self-supervised methods. We identify a key bottleneck: the underutilization of high-quality, semantically rich representations during training notably slows down convergence. Our systematic analysis reveals a critical representation processing region -- primarily in the early layers -- where semantic and structural pattern learning takes place before generation can occur. To address this, we propose Embedded Representation Warmup (ERW), a plug-and-play framework where in the first stage we get the ERW module serves as a warmup that initializes the early layers of the diffusion model with high-quality, pretrained representations. This warmup minimizes the burden of learning representations from scratch, thereby accelerating convergence and boosting performance. Our theoretical analysis demonstrates that ERW's efficacy depends on its precise integration into specific neural network layers -- termed the representation processing region -- where the model primarily processes and transforms feature representations for later generation. We further establish that ERW not only accelerates training convergence but also enhances representation quality: empirically, our method achieves a 40$\times$ acceleration in training speed compared to REPA, the current state-of-the-art methods. Code is available at https://github.com/LINs-lab/ERW.
- Abstract(参考訳): 拡散モデルは高次元データを生成するのに優れるが、自己教師付き手法に比べて訓練効率と表現品質に劣る。
トレーニング中の高品質で意味豊かな表現の未利用は、特に収束を遅くする。
私たちの体系的な分析では、生成前にセマンティックと構造パターンの学習が行われる、重要な表現処理領域(主に初期層)が明らかにされています。
これを解決するために,Embedded Representation Warmup (ERW) というプラグイン・アンド・プレイのフレームワークを提案し,ERWモジュールがウォームアップとして機能し,拡散モデルの初期層を高品質で事前訓練された表現で初期化する。
このウォームアップは、スクラッチからの学習表現の負担を最小限に抑え、収束を加速し、性能を向上する。
我々の理論的分析は、ERWの有効性が特定のニューラルネットワーク層(表現処理領域と呼ばれる)への正確な統合に依存していることを示している。
さらに、ERWはトレーニング収束を加速するだけでなく、表現品質の向上も図っている。
コードはhttps://github.com/LINs-lab/ERWで入手できる。
関連論文リスト
- Parallelly Tempered Generative Adversarial Networks [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。
我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Revisit Event Generation Model: Self-Supervised Learning of Event-to-Video Reconstruction with Implicit Neural Representations [11.874972134063638]
本稿では,ラベル付きデータや光フロー推定を必要としない新しいSSLイベント・ビデオ再構成手法であるEvINRを提案する。
我々は、(x, y, t)$を座標とする暗黙的ニューラル表現(INR)を用いて、事象発生方程式を表現する。
オンラインの要求に対してEvINRを実現するために,トレーニングプロセスを大幅に高速化するいくつかのアクセラレーション手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T04:18:10Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Learning Rich Nearest Neighbor Representations from Self-supervised
Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。
この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文 参考訳(メタデータ) (2021-10-19T22:24:57Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。