論文の概要: PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss
- arxiv url: http://arxiv.org/abs/2602.02493v1
- Date: Mon, 02 Feb 2026 18:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.394357
- Title: PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss
- Title(参考訳): PixelGen:Pixelの拡散は知覚損失で遅延拡散に勝る
- Authors: Zehong Ma, Ruihan Xu, Shiliang Zhang,
- Abstract要約: 知覚的監視機能を備えたシンプルなピクセル拡散フレームワークであるPixelGenを提案する。
フルイメージ多様体をモデル化する代わりに、PixelGenは2つの補完的な知覚的損失を導入した。
LPIPSの損失は、より優れた局所パターンの学習を促進する一方、DINOベースの知覚的損失は、グローバルな意味論を強化する。
- 参考スコア(独自算出の注目度): 47.868429337792314
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.
- Abstract(参考訳): 画素拡散は、VAEが2段階の潜伏拡散で導入したアーティファクトやボトルネックを避けるために、エンドツーエンドでピクセル空間内で直接画像を生成する。
しかし、知覚的に無関係な多くの信号を含む高次元画素多様体を最適化することは困難であり、既存の画素拡散法は遅延拡散モデルに遅れを取っている。
知覚的監視機能を備えたシンプルなピクセル拡散フレームワークであるPixelGenを提案する。
フルイメージ多様体をモデル化する代わりに、PixelGenは2つの相補的な知覚的損失を導入し、より意味のある知覚的多様体を学ぶための拡散モデルを導く。
LPIPSの損失は、より優れた局所パターンの学習を促進する一方、DINOベースの知覚的損失は、グローバルな意味論を強化する。
知覚的な監督により、PixelGenは強力な潜伏拡散ベースラインを超えた。
ImageNet-256のFIDは80のトレーニングエポックしか使用せず,GenEvalスコア0.79の大規模テキスト・画像生成において良好なスケーリング性能を示す。
PixelGenはVAEを必要とせず、遅延表現も、補助的なステージも必要とせず、よりシンプルだがより強力な生成パラダイムを提供する。
コードはhttps://github.com/Zehong-Ma/PixelGenで公開されている。
関連論文リスト
- One-step Latent-free Image Generation with Pixel Mean Flows [22.294629970410508]
ネットワーク出力空間と損失空間を別々に定式化する「ピクセル平均フロー」(pMF)を提案する。
pMFは、256x256解像度 (2.22 FID) と512x512解像度 (2.48 FID) でImageNet上の1ステップの潜時生成の強力な結果を得る
論文 参考訳(メタデータ) (2026-01-29T18:59:56Z) - PixelDiT: Pixel Diffusion Transformers for Image Generation [48.456815413366535]
PixelDiTはDiffusion Transformers用の単一ステージのエンドツーエンドモデルである。
オートエンコーダの必要性を排除し、ピクセル空間内で拡散過程を直接学習する。
ImageNet 256x256で1.61 FIDを達成し、既存のピクセル生成モデルを大きく上回っている。
論文 参考訳(メタデータ) (2025-11-25T18:59:25Z) - DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - DiP: Taming Diffusion Models in Pixel Space [91.51011771517683]
Diffusion Transformer (DiT) バックボーンは、効率的なグローバル構造構築のために大きなパッチで動作する。
共同トレーニングされた軽量パッチディーラーヘッドは、コンテキスト機能を活用して、きめ細かいローカル詳細を復元する。
論文 参考訳(メタデータ) (2025-11-24T06:55:49Z) - One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models [45.92038137978053]
本稿では,Latent Upscaler Adapter(LUA)について述べる。
LUAはドロップインコンポーネントとして統合されており、ベースモデルや追加の拡散段階を変更する必要はない。
スケール固有のピクセルシャッフルヘッドを持つ共有Swinスタイルのバックボーンは、2xと4xファクタをサポートし、画像空間SRベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-11-13T18:54:18Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image
Generation [88.55256389703082]
Pixelは画像生成のための有望な研究パラダイムである。
本稿では,Pixel のような効率的な画像生成に向けたプログレッシブピクセル合成ネットワークを提案する。
Pixelは支出を大幅に減らし、2つのベンチマークデータセットで新しい最先端(SOTA)パフォーマンスを得る。
論文 参考訳(メタデータ) (2022-04-02T10:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。