論文の概要: Efficient Generative Model Training via Embedded Representation Warmup
- arxiv url: http://arxiv.org/abs/2504.10188v3
- Date: Mon, 29 Sep 2025 14:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.282259
- Title: Efficient Generative Model Training via Embedded Representation Warmup
- Title(参考訳): 埋め込み表現ワームアップによる効率的な生成モデルトレーニング
- Authors: Deyuan Liu, Peng Sun, Xufeng Li, Tao Lin,
- Abstract要約: 生成モデルは基本的な課題に直面し、高いレベルのセマンティック概念と低レベルの合成の詳細を同時に学ばなければならない。
基本的2相学習フレームワークである組込み表現ワームアップを提案する。
このフレームワークは,REPAのような単一位相法と比較して,FID=1.41に達するために350エポックで11.5$times$の高速化を実現している。
- 参考スコア(独自算出の注目度): 12.485320863366411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models face a fundamental challenge: they must simultaneously learn high-level semantic concepts (what to generate) and low-level synthesis details (how to generate it). Conventional end-to-end training entangles these distinct, and often conflicting objectives, leading to a complex and inefficient optimization process. We argue that explicitly decoupling these tasks is key to unlocking more effective and efficient generative modeling. To this end, we propose Embedded Representation Warmup (ERW), a principled two-phase training framework. The first phase is dedicated to building a robust semantic foundation by aligning the early layers of a diffusion model with a powerful pretrained encoder. This provides a strong representational prior, allowing the second phase -- generative full training with alignment loss to refine the representation -- to focus its resources on high-fidelity synthesis. Our analysis confirms that this efficacy stems from functionally specializing the model's early layers for representation. Empirically, our framework achieves a 11.5$\times$ speedup in 350 epochs to reach FID=1.41 compared to single-phase methods like REPA. Code is available at https://github.com/LINs-lab/ERW.
- Abstract(参考訳): 生成モデルは、高レベルなセマンティック概念(生成方法)と低レベルな合成の詳細(生成方法)を同時に学ぶ必要がある。
従来のエンドツーエンドのトレーニングは、これらを区別し、しばしば相反する目標を絞って、複雑で非効率な最適化プロセスを生み出します。
これらのタスクを明示的に分離することが、より効率的かつ効率的な生成モデリングの鍵である、と我々は主張する。
そこで本研究では,2相学習フレームワークであるEmbedded Representation Warmup (ERW)を提案する。
第1フェーズは、拡散モデルの初期の層を強力な事前学習エンコーダと整合させることにより、堅牢なセマンティック基盤を構築することを目的としている。
これにより、強力な表現的事前を提供し、第2フェーズ -- アライメント損失を伴う生成的完全トレーニング -- が、そのリソースを高忠実な合成に集中させることができる。
解析の結果,この効果はモデルの初期層を機能的に特殊化することに起因することが確認された。
実験では,REPAのような単一位相法と比較して,350エポックスで11.5$\times$の高速化を実現し,FID=1.41に達する。
コードはhttps://github.com/LINs-lab/ERWで入手できる。
関連論文リスト
- From Structure to Detail: Hierarchical Distillation for Efficient Diffusion Model [18.782919607372328]
軌道ベースおよび分布ベースのステップ蒸留法は解決策を提供する。
軌道ベース法は地球構造を保ちながら「ロッキー圧縮機」として機能する
我々はそれらを新しい階層蒸留フレームワークの相乗的コンポーネントに再キャストする。
論文 参考訳(メタデータ) (2025-11-12T03:12:06Z) - DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models [51.76664843721462]
DeepThinkVLAはVision-Language-Actionモデルのための新しいアーキテクチャである。
因果的注意を伴うシーケンシャルCoTを生成し、双方向の注意に切り替え、アクションベクトルを高速に復号する。
LIBEROベンチマークで97.0%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-31T05:26:16Z) - Efficient Conditional Generation on Scale-based Visual Autoregressive Models [26.81493253536486]
効率的な制御モデル(英語: Efficient Control Model、ECM)は、分散アーキテクチャを介して制御信号を導入する軽量制御モジュールを備えたプラグイン・アンド・プレイフレームワークである。
ECMは、リアルタイムに生成されたトークンと、その限られた容量の利用を最大化するために設計された共有フィードフォワードネットワーク(FFN)を用いて、条件付き機能を洗練する。
提案手法は,既存のベースラインを越えつつ,トレーニングと推論の効率を大幅に向上させるとともに,画像生成に対する高忠実かつ多様な制御を実現する。
論文 参考訳(メタデータ) (2025-10-07T06:27:03Z) - Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Learning Diffusion Models with Flexible Representation Guidance [37.301580601018365]
本稿では,表現指導を拡散モデルに組み込むための体系的枠組みを提案する。
拡散モデルにおける表現アライメントを強化するための2つの新しい戦略を導入する。
画像、タンパク質配列、分子生成タスクにわたる実験は、優れた性能を示し、訓練を加速する。
論文 参考訳(メタデータ) (2025-07-11T19:29:02Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Parallelly Tempered Generative Adversarial Networks [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。
我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Revisit Event Generation Model: Self-Supervised Learning of Event-to-Video Reconstruction with Implicit Neural Representations [11.874972134063638]
本稿では,ラベル付きデータや光フロー推定を必要としない新しいSSLイベント・ビデオ再構成手法であるEvINRを提案する。
我々は、(x, y, t)$を座標とする暗黙的ニューラル表現(INR)を用いて、事象発生方程式を表現する。
オンラインの要求に対してEvINRを実現するために,トレーニングプロセスを大幅に高速化するいくつかのアクセラレーション手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T04:18:10Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Learning Rich Nearest Neighbor Representations from Self-supervised
Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。
この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文 参考訳(メタデータ) (2021-10-19T22:24:57Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。