論文の概要: Accelerating Diffusion Decoders via Multi-Scale Sampling and One-Step Distillation
- arxiv url: http://arxiv.org/abs/2603.19570v1
- Date: Fri, 20 Mar 2026 02:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.945035
- Title: Accelerating Diffusion Decoders via Multi-Scale Sampling and One-Step Distillation
- Title(参考訳): マルチスケールサンプリングとワンステップ蒸留による拡散デコーダの高速化
- Authors: Chuhan Wang, Hao Chen,
- Abstract要約: 拡散型デコーダは画像トークン化において,高忠実度で遅延表現から画像を再構成するために採用されている。
この非効率性に対処するための2段階の加速フレームワークを導入する。
各スケールで拡散復号器を1ステップの復号化モデルに蒸留し,高速かつ高品質な再構成を可能にする。
- 参考スコア(独自算出の注目度): 9.199518837644424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image tokenization plays a central role in modern generative modeling by mapping visual inputs into compact representations that serve as an intermediate signal between pixels and generative models. Diffusion-based decoders have recently been adopted in image tokenization to reconstruct images from latent representations with high perceptual fidelity. In contrast to diffusion models used for downstream generation, these decoders are dedicated to faithful reconstruction rather than content generation. However, their iterative sampling process introduces significant latency, making them impractical for real-time or large-scale applications. In this work, we introduce a two-stage acceleration framework to address this inefficiency. First, we propose a multi-scale sampling strategy, where decoding begins at a coarse resolution and progressively refines the output by doubling the resolution at each stage, achieving a theoretical speedup of $\mathcal{O}(\log n)$ compared to standard full-resolution sampling. Second, we distill the diffusion decoder at each scale into a single-step denoising model, enabling fast and high-quality reconstructions in a single forward pass per scale. Together, these techniques yield an order-of-magnitude reduction in decoding time with little degradation in output quality. Our approach provides a practical pathway toward efficient yet expressive image tokenizers. We hope it serves as a foundation for future work in efficient visual tokenization and downstream generation.
- Abstract(参考訳): 画像トークン化は、画像入力をピクセルと生成モデルの間の中間信号として機能するコンパクトな表現にマッピングすることで、現代の生成モデルにおいて中心的な役割を果たす。
拡散型デコーダは近年画像トークン化に採用され、知覚的忠実度の高い潜在表現からイメージを再構成している。
下流生成に使用される拡散モデルとは対照的に、これらのデコーダはコンテンツ生成よりも忠実な再構成に特化している。
しかし、その反復サンプリングプロセスは大きなレイテンシをもたらし、リアルタイムや大規模アプリケーションでは実用的ではない。
本研究では,この非効率性に対処する2段階加速フレームワークを提案する。
まず,デコーディングを粗い解像度で開始し,各ステージの解像度を2倍にすることで出力を段階的に洗練し,標準のフル解像度サンプリングと比較して$\mathcal{O}(\log n)$の理論的高速化を実現するマルチスケールサンプリング戦略を提案する。
第2に,拡散復号器を各スケールで1ステップの復号化モデルに蒸留し,高速かつ高品質な1スケール1回の前方通過再構成を可能にする。
これらの手法を併用すると、出力品質の劣化がほとんどなく、復号時間を大幅に短縮できる。
提案手法は,効率的かつ表現力のある画像トークン化装置への実用的な経路を提供する。
効率的なビジュアルトークン化とダウンストリーム生成における将来の取り組みの基盤として機能することを願っています。
関連論文リスト
- Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。