論文の概要: PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
- arxiv url: http://arxiv.org/abs/2605.23902v1
- Date: Fri, 22 May 2026 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.465483
- Title: PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
- Title(参考訳): PiD:Pixel Diffusionによる高速かつ高分解能潜時デコード
- Authors: Yifan Lu, Qi Wu, Jay Zhangjie Wu, Zian Wang, Huan Ling, Sanja Fidler, Xuanchi Ren,
- Abstract要約: latent-to-pixel デコーダは再構成指向であり、詳細を合成するのではなく、エンコーダを反転するように最適化されている。
条件付き画素拡散として遅延復号を再構成する画素拡散復号器であるPiDを導入する。
高解像度のピクセル空間で直接ノイズを発生させることで、PiDは低レイテンシで4倍、さらに8倍のアップスケールの画像を合成する。
- 参考スコア(独自算出の注目度): 65.47126282928896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most practical high-resolution text-to-image systems, including latent diffusion and autoregressive models, perform generation in a compact latent space, and a decoder maps the generated latents back to pixels. Yet the latent-to-pixel decoder is reconstruction-oriented, optimized to invert the encoder rather than synthesize more details, and becomes increasingly costly at megapixel scale. This drawback calls for a more expressive and efficient decoding paradigm. Motivated by recent progress in scalable pixel-space diffusion, we introduce PiD, a Pixel diffusion Decoder that reformulates latent decoding as conditional pixel diffusion, unifying decoding and upsampling into one generative module. By denoising directly in high-resolution pixel space, PiD synthesizes $4\times$ and even $8\times$ upscaled images with low latency. For latent conditioning, a lightweight sigma-aware adapter injects noise-corrupted latents into the pixel diffusion backbone, enabling PiD to decode partially denoised latents and terminate the latent diffusion process early. To further improve efficiency, we distill the model using DMD2, reducing inference to just 4 steps. PiD applies to both conventional VAE latents and semantic latents (e.g., SigLIP, DINOv2) used in recent RAE-based models. PiD decodes latents of $512 \times 512$ images into $2048 \times 2048$ pixels in under 1 second with 13 GB peak memory on a consumer RTX 5090, and as fast as 210 ms on a GB200 GPU, about $6\times$ faster than cascaded diffusion-based super-resolution pipelines with better visual fidelity.
- Abstract(参考訳): 遅延拡散や自己回帰モデルを含むほとんどの実用的な高解像度テキスト・ツー・イメージシステムでは、コンパクトな潜時空間で生成を行い、デコーダは生成された潜時をピクセルにマッピングする。
しかし、潜在画素デコーダは再構成指向であり、より詳細を合成するよりもエンコーダを反転させるように最適化されており、メガピクセルスケールではますますコストがかかる。
この欠点は、より表現力があり効率的なデコードパラダイムを要求する。
拡張性のあるピクセル空間拡散の最近の進展に触発され、我々は、ピクセル拡散デコーダであるPiDを導入し、遅延復号を条件付き画素拡散として再構成し、復号化と1つの生成モジュールへのアップサンプリングを行う。
高解像度のピクセル空間で直接ノイズを発生させることで、PiDは低レイテンシで4\times$と8\times$のアップスケールイメージを合成する。
潜伏条件付けのために、軽量シグマ対応アダプタは、ノイズ腐食した潜伏剤を画素拡散バックボーンに注入し、PiDが部分復号化潜伏剤をデコードし、早期に潜伏拡散プロセスを終了させる。
さらに効率を向上させるために, DMD2を用いてモデルを蒸留し, 推論を4段階に短縮する。
PiDは、最近のRAEベースのモデルで使用される従来のVAE潜伏剤とセマンティック潜伏剤(例えば、SigLIP、DINOv2)の両方に適用される。
PiDは512 \times 512$イメージを2048 \times 2048$ピクセルを1秒未満で、消費者向けRTX 5090で13GBのピークメモリ、GB200 GPUで210ms、カスケード拡散ベースの超解像パイプラインより約6\times$高速にデコードする。
関連論文リスト
- Laminating Representation Autoencoders for Efficient Diffusion [18.989001805139573]
近年の研究では、拡散モデルがピクセル空間ラテントではなくSSLパッチ機能を直接操作することで、高品質な画像を生成することが示されている。
この表現をわずか32個の連続トークンからなる1次元列に圧縮する変分オートエンコーダであるFlatDINOを導入する。
論文 参考訳(メタデータ) (2026-02-04T18:57:33Z) - PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss [47.868429337792314]
知覚的監視機能を備えたシンプルなピクセル拡散フレームワークであるPixelGenを提案する。
フルイメージ多様体をモデル化する代わりに、PixelGenは2つの補完的な知覚的損失を導入した。
LPIPSの損失は、より優れた局所パターンの学習を促進する一方、DINOベースの知覚的損失は、グローバルな意味論を強化する。
論文 参考訳(メタデータ) (2026-02-02T18:59:42Z) - PixelDiT: Pixel Diffusion Transformers for Image Generation [48.456815413366535]
PixelDiTはDiffusion Transformers用の単一ステージのエンドツーエンドモデルである。
オートエンコーダの必要性を排除し、ピクセル空間内で拡散過程を直接学習する。
ImageNet 256x256で1.61 FIDを達成し、既存のピクセル生成モデルを大きく上回っている。
論文 参考訳(メタデータ) (2025-11-25T18:59:25Z) - DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models [45.92038137978053]
本稿では,Latent Upscaler Adapter(LUA)について述べる。
LUAはドロップインコンポーネントとして統合されており、ベースモデルや追加の拡散段階を変更する必要はない。
スケール固有のピクセルシャッフルヘッドを持つ共有Swinスタイルのバックボーンは、2xと4xファクタをサポートし、画像空間SRベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-11-13T18:54:18Z) - StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher [55.22994720855957]
PaGoDAは、ダウンサンプルデータ上でのトレーニング拡散、事前訓練された拡散の蒸留、プログレッシブ超解像という3段階のトレーニングコストを削減した、新しいパイプラインである。
提案されたパイプラインでは、PaGoDAは8倍のサンプルデータで拡散モデルをトレーニングするコストを64倍に削減する。
PaGoDAのパイプラインは、遅延空間で直接適用することができ、遅延拡散モデルで事前訓練されたオートエンコーダと共に圧縮を追加する。
論文 参考訳(メタデータ) (2024-05-23T17:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。