論文の概要: Sortblock: Similarity-Aware Feature Reuse for Diffusion Model
- arxiv url: http://arxiv.org/abs/2508.00412v1
- Date: Fri, 01 Aug 2025 08:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.789838
- Title: Sortblock: Similarity-Aware Feature Reuse for Diffusion Model
- Title(参考訳): Sortblock: 拡散モデルにおける類似性を考慮した特徴再利用
- Authors: Hanqi Chen, Xu Zhang, Xiaoliu Guan, Lielin Jiang, Guanzhong Wang, Zeyu Chen, Yi Liu,
- Abstract要約: Diffusion Transformer (DiTs) は顕著な生成能を示した。
DiTのシーケンシャルな denoising プロセスは、高い推論遅延をもたらす。
トレーニング不要な推論アクセラレーションフレームワークであるSoltblockを提案する。
- 参考スコア(独自算出の注目度): 9.749736545966694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have demonstrated remarkable generative capabilities, particularly benefiting from Transformer architectures that enhance visual and artistic fidelity. However, their inherently sequential denoising process results in high inference latency, limiting their deployment in real-time scenarios. Existing training-free acceleration approaches typically reuse intermediate features at fixed timesteps or layers, overlooking the evolving semantic focus across denoising stages and Transformer blocks.To address this, we propose Sortblock, a training-free inference acceleration framework that dynamically caches block-wise features based on their similarity across adjacent timesteps. By ranking the evolution of residuals, Sortblock adaptively determines a recomputation ratio, selectively skipping redundant computations while preserving generation quality. Furthermore, we incorporate a lightweight linear prediction mechanism to reduce accumulated errors in skipped blocks.Extensive experiments across various tasks and DiT architectures demonstrate that Sortblock achieves over 2$\times$ inference speedup with minimal degradation in output quality, offering an effective and generalizable solution for accelerating diffusion-based generative models.
- Abstract(参考訳): Diffusion Transformer (DiTs)は、特に視覚的および芸術的忠実性を高めるTransformerアーキテクチャの恩恵を受け、顕著な生成能力を示している。
しかし、その本質的にシーケンシャルなdenoisingプロセスは、高い推論遅延をもたらし、リアルタイムシナリオへのデプロイメントを制限します。
既存のトレーニングフリー・アクセラレーション・アプローチは、通常、固定時間ステップやレイヤで中間機能を再利用し、段階やトランスフォーマーブロック間の進化するセマンティックな焦点を見渡す。これを解決するために、隣接する時間ステップにまたがる類似性に基づいてブロックワイズ機能を動的にキャッシュするトレーニングフリー推論アクセラレーション・フレームワークであるSoltblockを提案する。
残差の進化をランク付けすることで、Soltblockは再計算比を適応的に決定し、生成品質を維持しながら冗長な計算を選択的にスキップする。
さらに、スキップブロックの累積誤差を低減するために、軽量線形予測機構を導入し、様々なタスクやDiTアーキテクチャにわたる大規模な実験により、Soltblockは出力品質の低下を最小限に抑えた2$\times$推論スピードアップを実現し、拡散ベース生成モデルを高速化するための効果的で一般化可能なソリューションを提供することを示した。
関連論文リスト
- Block-wise Adaptive Caching for Accelerating Diffusion Policy [10.641633189595302]
Block-wise Adaptive Caching(BAC)は、中間動作特徴をキャッシュすることで拡散ポリシーを高速化する手法である。
BACは、ロボットベンチマークで無償で最大3倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2025-06-16T13:14:58Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - ALTER: All-in-One Layer Pruning and Temporal Expert Routing for Efficient Diffusion Generation [40.68265817413368]
ALTER: All-in-One Layer Pruning and Temporal Expert Routingを紹介する。
拡散モデルを効率的な時間的専門家の混合物に変換する統一されたフレームワーク。
トレーニング可能なハイパーネットワークを利用することで、レイヤープルーニング、エキスパートルーティング、モデル微調整を統一するシングルステージ最適化。
論文 参考訳(メタデータ) (2025-05-27T22:59:44Z) - Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [11.727693745877486]
フレームとイベントデータを融合するために、スパイキングフレームイベント追跡フレームワークが提案されている。
RPMは位置バイアスのランダム化空間再構成と学習可能な型符号化を除去する。
STR戦略は、潜在空間におけるテンプレート機能間の時間的一貫性を強制する。
論文 参考訳(メタデータ) (2025-05-27T07:53:50Z) - Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration [24.85624444212476]
本研究は,拡散過程を伴わない領域における不規則な特徴冗長性への参加という,新しい概念を提案する。
我々は, 特徴冗長度の位置と度合いを, 構造的詳細記述に基づく分析を行った。
SDTMは,特徴冗長性を動的に圧縮する構造的詳細トークンマージ手法である。
論文 参考訳(メタデータ) (2025-05-16T21:27:38Z) - BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers [39.08730113749482]
DiT(Diffusion Transformer)は、低推論速度に関連する課題に直面し続けている。
我々は、DiTを加速するために、隣接する時間ステップにおける特徴的類似性を探求する、トレーニング不要のアプローチであるBlockDanceを提案する。
インスタンス固有のアクセラレーションに適した軽量な意思決定ネットワークであるBlockDance-Adaについても紹介する。
論文 参考訳(メタデータ) (2025-03-20T08:07:31Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。