論文の概要: Efficient Generative Model Training via Embedded Representation Warmup
- arxiv url: http://arxiv.org/abs/2504.10188v3
- Date: Mon, 29 Sep 2025 14:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.282259
- Title: Efficient Generative Model Training via Embedded Representation Warmup
- Title(参考訳): 埋め込み表現ワームアップによる効率的な生成モデルトレーニング
- Authors: Deyuan Liu, Peng Sun, Xufeng Li, Tao Lin,
- Abstract要約: 生成モデルは基本的な課題に直面し、高いレベルのセマンティック概念と低レベルの合成の詳細を同時に学ばなければならない。
基本的2相学習フレームワークである組込み表現ワームアップを提案する。
このフレームワークは,REPAのような単一位相法と比較して,FID=1.41に達するために350エポックで11.5$times$の高速化を実現している。
- 参考スコア(独自算出の注目度): 12.485320863366411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models face a fundamental challenge: they must simultaneously learn high-level semantic concepts (what to generate) and low-level synthesis details (how to generate it). Conventional end-to-end training entangles these distinct, and often conflicting objectives, leading to a complex and inefficient optimization process. We argue that explicitly decoupling these tasks is key to unlocking more effective and efficient generative modeling. To this end, we propose Embedded Representation Warmup (ERW), a principled two-phase training framework. The first phase is dedicated to building a robust semantic foundation by aligning the early layers of a diffusion model with a powerful pretrained encoder. This provides a strong representational prior, allowing the second phase -- generative full training with alignment loss to refine the representation -- to focus its resources on high-fidelity synthesis. Our analysis confirms that this efficacy stems from functionally specializing the model's early layers for representation. Empirically, our framework achieves a 11.5$\times$ speedup in 350 epochs to reach FID=1.41 compared to single-phase methods like REPA. Code is available at https://github.com/LINs-lab/ERW.
- Abstract(参考訳): 生成モデルは、高レベルなセマンティック概念(生成方法)と低レベルな合成の詳細(生成方法)を同時に学ぶ必要がある。
従来のエンドツーエンドのトレーニングは、これらを区別し、しばしば相反する目標を絞って、複雑で非効率な最適化プロセスを生み出します。
これらのタスクを明示的に分離することが、より効率的かつ効率的な生成モデリングの鍵である、と我々は主張する。
そこで本研究では,2相学習フレームワークであるEmbedded Representation Warmup (ERW)を提案する。
第1フェーズは、拡散モデルの初期の層を強力な事前学習エンコーダと整合させることにより、堅牢なセマンティック基盤を構築することを目的としている。
これにより、強力な表現的事前を提供し、第2フェーズ -- アライメント損失を伴う生成的完全トレーニング -- が、そのリソースを高忠実な合成に集中させることができる。
解析の結果,この効果はモデルの初期層を機能的に特殊化することに起因することが確認された。
実験では,REPAのような単一位相法と比較して,350エポックスで11.5$\times$の高速化を実現し,FID=1.41に達する。
コードはhttps://github.com/LINs-lab/ERWで入手できる。
関連論文リスト
- Learning Diffusion Models with Flexible Representation Guidance [37.301580601018365]
本稿では,表現指導を拡散モデルに組み込むための体系的枠組みを提案する。
拡散モデルにおける表現アライメントを強化するための2つの新しい戦略を導入する。
画像、タンパク質配列、分子生成タスクにわたる実験は、優れた性能を示し、訓練を加速する。
論文 参考訳(メタデータ) (2025-07-11T19:29:02Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Parallelly Tempered Generative Adversarial Networks [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。
我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Revisit Event Generation Model: Self-Supervised Learning of Event-to-Video Reconstruction with Implicit Neural Representations [11.874972134063638]
本稿では,ラベル付きデータや光フロー推定を必要としない新しいSSLイベント・ビデオ再構成手法であるEvINRを提案する。
我々は、(x, y, t)$を座標とする暗黙的ニューラル表現(INR)を用いて、事象発生方程式を表現する。
オンラインの要求に対してEvINRを実現するために,トレーニングプロセスを大幅に高速化するいくつかのアクセラレーション手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T04:18:10Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Learning Rich Nearest Neighbor Representations from Self-supervised
Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。
この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文 参考訳(メタデータ) (2021-10-19T22:24:57Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。