論文の概要: PixelDiT: Pixel Diffusion Transformers for Image Generation
- arxiv url: http://arxiv.org/abs/2511.20645v1
- Date: Tue, 25 Nov 2025 18:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.643764
- Title: PixelDiT: Pixel Diffusion Transformers for Image Generation
- Title(参考訳): PixelDiT:画像生成のためのPixel拡散変換器
- Authors: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo,
- Abstract要約: PixelDiTはDiffusion Transformers用の単一ステージのエンドツーエンドモデルである。
オートエンコーダの必要性を排除し、ピクセル空間内で拡散過程を直接学習する。
ImageNet 256x256で1.61 FIDを達成し、既存のピクセル生成モデルを大きく上回っている。
- 参考スコア(独自算出の注目度): 48.456815413366535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.
- Abstract(参考訳): 遅延空間モデリングは拡散変換器(DiT)の標準となっている。
しかし、事前訓練されたオートエンコーダが損失の少ない再構成を導入し、共同最適化の妨げとなるような2段階のパイプラインに依存している。
これらの問題に対処するために,オートエンコーダの必要性を排除し,ピクセル空間内で直接拡散過程を学習する一段階のエンドツーエンドモデルであるPixelDiTを提案する。
PixelDiTは、グローバルなセマンティクスをキャプチャするパッチレベルのDiTと、テクスチャの詳細を洗練し、細部を保存しながらピクセル空間拡散モデルの効率的なトレーニングを可能にするピクセルレベルのDiTという、デュアルレベルの設計で形成された完全なトランスフォーマーベースのアーキテクチャを採用している。
解析の結果,有効画素レベルのトークンモデリングが画素拡散の成功に不可欠であることが判明した。
PixelDiT は ImageNet 256x256 で 1.61 FID を達成した。
さらに、PixelDiTをテキストから画像生成に拡張し、ピクセル空間の1024×1024解像度でプリトレーニングします。
GenEval では 0.74 、 DPG-bench では 83.5 となり、最高の潜伏拡散モデルに近づいた。
関連論文リスト
- DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - DiP: Taming Diffusion Models in Pixel Space [91.51011771517683]
Diffusion Transformer (DiT) バックボーンは、効率的なグローバル構造構築のために大きなパッチで動作する。
共同トレーニングされた軽量パッチディーラーヘッドは、コンテキスト機能を活用して、きめ細かいローカル詳細を復元する。
論文 参考訳(メタデータ) (2025-11-24T06:55:49Z) - Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers [45.701222598522456]
Pixel-Perfect Depthはピクセル空間拡散生成に基づく単眼深度推定モデルである。
本モデルは,5つのベンチマークにおいて,すべての生成モデルの中で最高の性能を達成している。
論文 参考訳(メタデータ) (2025-10-08T17:59:33Z) - Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、品質と効率の両方において、潜在モデルと非常に競合することを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文 参考訳(メタデータ) (2024-10-25T06:20:06Z) - Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass
Diffusion Transformers [2.078423403798577]
画像生成モデルであるHourglass Diffusion Transformer (HDiT)を提案する。
数十億のパラメータにスケールすることが知られているTransformerアーキテクチャに基づいて構築され、畳み込みU-Netの効率とTransformerのスケーラビリティのギャップを埋める。
論文 参考訳(メタデータ) (2024-01-21T21:49:49Z) - PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image
Generation [88.55256389703082]
Pixelは画像生成のための有望な研究パラダイムである。
本稿では,Pixel のような効率的な画像生成に向けたプログレッシブピクセル合成ネットワークを提案する。
Pixelは支出を大幅に減らし、2つのベンチマークデータセットで新しい最先端(SOTA)パフォーマンスを得る。
論文 参考訳(メタデータ) (2022-04-02T10:55:11Z) - PixelPyramids: Exact Inference Models from Lossless Image Pyramids [58.949070311990916]
Pixel-Pyramidsは、画像画素の関節分布を符号化するスケール特異的表現を用いたブロック自動回帰手法である。
様々な画像データセット、特に高解像度データに対する密度推定の最先端結果が得られる。
CelebA-HQ 1024 x 1024 では,フローベースモデルの並列化よりもサンプリング速度が優れているにもかかわらず,密度推定値がベースラインの 44% に向上することが観察された。
論文 参考訳(メタデータ) (2021-10-17T10:47:29Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。