論文の概要: From Sketch to Fresco: Efficient Diffusion Transformer with Progressive Resolution
- arxiv url: http://arxiv.org/abs/2601.07462v1
- Date: Mon, 12 Jan 2026 12:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.368404
- Title: From Sketch to Fresco: Efficient Diffusion Transformer with Progressive Resolution
- Title(参考訳): Sketch から Fresco へ: 進行分解能を有する効率的な拡散変圧器
- Authors: Shikang Zheng, Guantao Chen, Lixuan He, Jiacheng Liu, Yuqi Lin, Chang Zou, Linfeng Zhang,
- Abstract要約: 拡散変換器は優れた生成品質を達成するが、反復サンプリングのため高価である。
textbfFrescoは,プログレッシブアップサンプリングを用いて,ステージ間におけるリノイズとグローバル構造を統一する動的解像度フレームワークである。
- 参考スコア(独自算出の注目度): 11.05647700476321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers achieve impressive generative quality but remain computationally expensive due to iterative sampling. Recently, dynamic resolution sampling has emerged as a promising acceleration technique by reducing the resolution of early sampling steps. However, existing methods rely on heuristic re-noising at every resolution transition, injecting noise that breaks cross-stage consistency and forces the model to relearn global structure. In addition, these methods indiscriminately upsample the entire latent space at once without checking which regions have actually converged, causing accumulated errors, and visible artifacts. Therefore, we propose \textbf{Fresco}, a dynamic resolution framework that unifies re-noise and global structure across stages with progressive upsampling, preserving both the efficiency of low-resolution drafting and the fidelity of high-resolution refinement, with all stages aligned toward the same final target. Fresco achieves near-lossless acceleration across diverse domains and models, including 10$\times$ speedup on FLUX, and 5$\times$ on HunyuanVideo, while remaining orthogonal to distillation, quantization and feature caching, reaching 22$\times$ speedup when combined with distilled models. Our code is in supplementary material and will be released on Github.
- Abstract(参考訳): 拡散変換器は優れた生成品質を達成するが、反復サンプリングのため計算コストは高い。
近年,早期サンプリングステップの分解能を低下させることにより,動的分解能サンプリングが有望な加速技術として出現している。
しかし、既存の手法は、すべての解像度遷移においてヒューリスティックな再ノイズ化に依存し、ステージ間の一貫性を損なうノイズを注入し、モデルにグローバルな構造を再生させる。
さらに、これらの手法は、どの領域が実際に収束しているかを確認したり、蓄積したエラーや可視的アーティファクトを発生させることなく、一度に潜在空間全体を無差別にアップサンプリングする。
そこで本稿では,低分解能化の効率と高分解能化の忠実さを両立させ,すべての段階が最終目標に向かって整列する動的分解フレームワークである「textbf{Fresco}」を提案する。
FrescoはFLUXの10$\times$スピードアップ、HunyuanVideoの5$\times$など、さまざまなドメインやモデルでほぼ無作為なアクセラレーションを実現している。
私たちのコードは補足的な素材で、Githubでリリースされます。
関連論文リスト
- OmniCache: A Trajectory-Oriented Global Perspective on Training-Free Cache Reuse for Diffusion Transformer Models [5.2258248597807535]
DiffusionTransformersは、多数のサンプリングステップと複雑なステップ毎の計算から、リアルタイムデプロイメントにおいて重要な課題を提示する。
OmniCacheは,デノナイジングプロセスに固有のグローバル冗長性を生かした,トレーニング不要なアクセラレーション手法である。
論文 参考訳(メタデータ) (2025-08-22T08:36:58Z) - Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models [53.087070073434845]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低レイテンシの予算で画像品質が劣化することが多い。
本稿では、各ODEステップに複数の並列勾配評価を組み込むことで、トランケーションエラーを軽減する新しいODEソルバであるEnsemble Parallel Direction Solutionrを提案する。
論文 参考訳(メタデータ) (2025-07-20T03:08:06Z) - Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers [9.875073051988057]
Region-Adaptive Latent Upsampling(ALU)は、空間次元に沿って推論を加速するトレーニング不要のフレームワークである。
1) グローバルセマンティック構造を効率的に捉えるための低分解能遅延拡散の低分解能化、2) 特定の領域に対する領域適応的なアップサンプリング、3) 詳細精細化のために全分解能で遅延アップサンプリングを行う。
FLUXで最大7.0$times$, 安定拡散3で3.0$times$を最小限の劣化で達成することで, 画像品質を保ちながら計算を著しく削減する。
論文 参考訳(メタデータ) (2025-07-11T09:07:43Z) - Training-free Diffusion Acceleration with Bottleneck Sampling [37.9135035506567]
Bottleneck Samplingは、低解像度の事前処理を活用して、出力の忠実さを維持しながら計算オーバーヘッドを低減する、トレーニング不要のフレームワークである。
画像生成に最大3$times$、ビデオ生成に2.5$times$、標準のフル解像度サンプリングプロセスに匹敵する出力品質を維持しながら、推論を加速する。
論文 参考訳(メタデータ) (2025-03-24T17:59:02Z) - Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling [50.34513854725803]
Arbitrary-scale Super- resolution (ASSR) は、低解像度(LR)入力から任意のアップサンプリング係数で高解像度(HR)イメージを再構成することを目的としている。
本稿では,Gaussian Splattingを用いたLR画像から2次元連続HR信号を明示的に再構成する,Pixel-to-Gaussianパラダイムを用いた新しいContinuousSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-09T13:43:57Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep Tuner [112.99126045081046]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小コストで特定の区間に対してより正確な積分方向を求めるのに役立つtextbftimestep tunerを提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Hessian-Free High-Resolution Nesterov Acceleration for Sampling [55.498092486970364]
最適化のためのNesterovのAccelerated Gradient(NAG)は、有限のステップサイズを使用する場合の連続時間制限(ノイズなしの運動的ランゲヴィン)よりも優れたパフォーマンスを持つ。
本研究は, この現象のサンプリング法について検討し, 離散化により加速勾配に基づくMCMC法が得られる拡散過程を提案する。
論文 参考訳(メタデータ) (2020-06-16T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。