論文の概要: L2P: Unlocking Latent Potential for Pixel Generation
- arxiv url: http://arxiv.org/abs/2605.12013v1
- Date: Tue, 12 May 2026 12:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.838466
- Title: L2P: Unlocking Latent Potential for Pixel Generation
- Title(参考訳): L2P: ピクセル生成の遅延ポテンシャルを解き放つ
- Authors: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Jiawei Chen, Zhuoqi Zeng, Wei Zhang, Chengjie Wang, Jian Yang, Ying Tai,
- Abstract要約: 強力なピクセル空間モデルを構築するために,L2P(Latent-to-Pixel)転送パラダイムを提案する。
L2Pは、大容量のトークン化に賛成してVAEを捨て、ソースLCMの中間層を凍結する。
DPG-Bench のソース LDM と同等に動作し,GenEval では 93% に到達した。
- 参考スコア(独自算出の注目度): 86.9932728111552
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pixel diffusion models have recently regained attention for visual generation. However, training advanced pixel-space models from scratch demands prohibitive computational and data resources. To address this, we propose the Latent-to-Pixel (L2P) transfer paradigm, an efficient framework that directly harnesses the rich knowledge of pre-trained LDMs to build powerful pixel-space models. Specifically, L2P discards the VAE in favor of large-patch tokenization and freezes the source LDM's intermediate layers, exclusively training shallow layers to learn the latent-to-pixel transformation. By utilizing LDM-generated synthetic images as the sole training corpus, L2P fits an already smooth data manifold, enabling rapid convergence with zero real-data collection. This strategy allows L2P to seamlessly migrate massive latent priors to the pixel space using only 8 GPUs. Furthermore, eliminating the VAE memory bottleneck unlocks native 4K ultra-high resolution generation. Extensive experiments across mainstream LDM architectures show that L2P incurs negligible training overhead, yet performs on par with the source LDM on DPG-Bench and reaches 93% performance on GenEval.
- Abstract(参考訳): 画素拡散モデルは最近、視覚発生のために注目を集めている。
しかし、スクラッチからの高度なピクセル空間モデルのトレーニングは、計算やデータ資源を禁止している。
そこで我々は,L2P(Latent-to-Pixel)転送パラダイムを提案する。L2P(Latent-to-Pixel)転送パラダイムは,事前学習したLDMの豊富な知識を直接活用して,強力なピクセル空間モデルを構築するための効率的なフレームワークである。
具体的には、L2P は VAE を捨てて大きなパッチトークン化を行い、ソース LDM の中間層を凍結する。
LDM生成合成画像を単独のトレーニングコーパスとして利用することにより、L2Pは、既に滑らかなデータ多様体に適合し、実データ収集をゼロにする高速収束を可能にする。
この戦略により、L2Pは8GPUのみを使用して、巨大な潜伏前をピクセル空間にシームレスに移行できる。
さらに、VAEメモリボトルネックをなくすことで、4Kのネイティブな超高解像度生成が可能になる。
主流の LDM アーキテクチャの広範な実験によると,L2P ではトレーニングのオーバーヘッドは無視できるが DPG-Bench のソース LDM と同等に動作し,GenEval では 93% のパフォーマンスを達成した。
関連論文リスト
- VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding [52.69880888587866]
現在のビデオ大言語モデル(ビデオLLM)は、典型的にはエンコーダビジョンを介してフレームを符号化し、自己回帰(AR)LLMを使用して理解と生成を行う。
本稿では,言語モデル(DLM)に基づく拡散ビデオLLMであるVidLaDAを提案する。
実験によると、VidLaDAは最先端のARベースラインと競合し、DLMベースラインを上回り、MARS-Cacheは精度を損なうことなく12倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-25T15:02:01Z) - One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models [45.92038137978053]
本稿では,Latent Upscaler Adapter(LUA)について述べる。
LUAはドロップインコンポーネントとして統合されており、ベースモデルや追加の拡散段階を変更する必要はない。
スケール固有のピクセルシャッフルヘッドを持つ共有Swinスタイルのバックボーンは、2xと4xファクタをサポートし、画像空間SRベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-11-13T18:54:18Z) - LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization [37.236005953016175]
LightGenは、画像生成モデルのための効率的なトレーニングパラダイムである。
最先端(SOTA)テキスト・ツー・イメージモデルから知識を抽出し、コンパクトなMasked Autoregressiveアーキテクチャに変換する。
実験では、LightGenがSOTAモデルに匹敵する画像生成品質を達成することを確認した。
論文 参考訳(メタデータ) (2025-03-11T16:58:02Z) - Pixel-Space Post-Training of Latent Diffusion Models [25.537402279188843]
我々は,高頻度の詳細をよりよく保存するために,ポストトレーニングプロセスに画素空間の監視を追加することを提案する。
画素空間の目的を付加することで、教師付き品質の微調整と嗜好に基づくポストトレーニングの両方が大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-09-26T06:27:26Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。