論文の概要: Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2507.08422v2
- Date: Tue, 19 Aug 2025 03:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.567452
- Title: Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers
- Title(参考訳): 高速化拡散変換器の領域適応潜時サンプリング
- Authors: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun,
- Abstract要約: Region-Adaptive Latent Upsampling(ALU)は、空間次元に沿って推論を加速するトレーニング不要のフレームワークである。
1) グローバルセマンティック構造を効率的に捉えるための低分解能遅延拡散の低分解能化、2) 特定の領域に対する領域適応的なアップサンプリング、3) 詳細精細化のために全分解能で遅延アップサンプリングを行う。
FLUXで最大7.0$times$, 安定拡散3で3.0$times$を最小限の劣化で達成することで, 画像品質を保ちながら計算を著しく削減する。
- 参考スコア(独自算出の注目度): 9.875073051988057
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion transformers have emerged as an alternative to U-net-based diffusion models for high-fidelity image and video generation, offering superior scalability. However, their heavy computation remains a major obstacle to real-world deployment. Existing acceleration methods primarily exploit the temporal dimension such as reusing cached features across diffusion timesteps. Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free framework that accelerates inference along spatial dimension. RALU performs mixed-resolution sampling across three stages: 1) low-resolution denoising latent diffusion to efficiently capture global semantic structure, 2) region-adaptive upsampling on specific regions prone to artifacts at full-resolution, and 3) all latent upsampling at full-resolution for detail refinement. To stabilize generations across resolution transitions, we leverage noise-timestep rescheduling to adapt the noise level across varying resolutions. Our method significantly reduces computation while preserving image quality by achieving up to 7.0$\times$ speed-up on FLUX and 3.0$\times$ on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is complementary to existing temporal accelerations such as caching methods, thus can be seamlessly integrated to further reduce inference latency without compromising generation quality.
- Abstract(参考訳): 拡散変換器は、高忠実度画像とビデオ生成のためのU-netベースの拡散モデルの代替として登場し、スケーラビリティが向上している。
しかし、彼らの重い計算は、現実世界のデプロイメントにとって大きな障害であり続けている。
既存の加速法は主に拡散時間ステップをまたいだキャッシュされた特徴の再利用のような時間次元を利用する。
本稿では,空間次元に沿って推論を加速するトレーニング不要のフレームワークである地域適応ラテントアップサンプリング(RALU)を提案する。
RALUは3段階にわたって混合分解能サンプリングを行う。
1)グローバルな意味構造を効率的に捉えるための低分解能遅延拡散
2 特定地域における地域適応型アップサンプリングは、全解像度で人工物に傾向があり、
3) 精細化のために全解像度で潜伏したアップサンプリングを行う。
分解能遷移を経る世代を安定化させるために,ノイズ・タイムステップ・リスケジュールを活用し,様々な解像度でノイズレベルを適応させる。
FLUX では7.0$\times$ と FLUX では3.0$\times$ と、最小限の劣化を伴う安定拡散3では3.0$\times$ となる。
さらに、ALUはキャッシュメソッドなどの既存の時間加速度を補完するので、生成品質を損なうことなく、推論遅延をさらに低減するためにシームレスに統合することができる。
関連論文リスト
- Single-Step Latent Consistency Model for Remote Sensing Image Super-Resolution [7.920423405957888]
RSISRタスクの効率性と視覚的品質を向上させるために,新しい単一ステップ拡散手法を提案する。
提案したLCMSRは,従来の拡散モデルの反復的なステップを50-1000以上から1ステップに短縮する。
実験の結果, LCMSRは効率と性能のバランスを効果的に保ち, 非拡散モデルに匹敵する推論時間を達成することがわかった。
論文 参考訳(メタデータ) (2025-03-25T09:56:21Z) - Training-free Diffusion Acceleration with Bottleneck Sampling [37.9135035506567]
Bottleneck Samplingは、低解像度の事前処理を活用して、出力の忠実さを維持しながら計算オーバーヘッドを低減する、トレーニング不要のフレームワークである。
画像生成に最大3$times$、ビデオ生成に2.5$times$、標準のフル解像度サンプリングプロセスに匹敵する出力品質を維持しながら、推論を加速する。
論文 参考訳(メタデータ) (2025-03-24T17:59:02Z) - Region-Adaptive Sampling for Diffusion Transformers [23.404921023113324]
RASは、DiTモデルの焦点に基づいて、画像内の領域に異なるサンプリング比を動的に割り当てる。
安定拡散3とLumina-Next-T2IのRASを評価し,それぞれ2.36xと2.51xの高速化を実現し,生成品質の低下を最小限に抑えた。
論文 参考訳(メタデータ) (2025-02-14T18:59:36Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Towards Interpretable Video Super-Resolution via Alternating
Optimization [115.85296325037565]
低フレームのぼかしビデオから高フレームの高解像度のシャープビデオを生成することを目的とした実時間ビデオ超解法(STVSR)問題について検討する。
本稿では,モデルベースと学習ベースの両方の手法を用いて,解釈可能なSTVSRフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T21:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。