論文の概要: Training-free Diffusion Acceleration with Bottleneck Sampling
- arxiv url: http://arxiv.org/abs/2503.18940v2
- Date: Thu, 27 Mar 2025 13:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 14:27:26.864982
- Title: Training-free Diffusion Acceleration with Bottleneck Sampling
- Title(参考訳): ボトルネックサンプリングによる無トレーニング拡散加速
- Authors: Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui,
- Abstract要約: Bottleneck Samplingは、低解像度の事前処理を活用して、出力の忠実さを維持しながら計算オーバーヘッドを低減する、トレーニング不要のフレームワークである。
画像生成に最大3$times$、ビデオ生成に2.5$times$、標準のフル解像度サンプリングプロセスに匹敵する出力品質を維持しながら、推論を加速する。
- 参考スコア(独自算出の注目度): 37.9135035506567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated remarkable capabilities in visual content generation but remain challenging to deploy due to their high computational cost during inference. This computational burden primarily arises from the quadratic complexity of self-attention with respect to image or video resolution. While existing acceleration methods often compromise output quality or necessitate costly retraining, we observe that most diffusion models are pre-trained at lower resolutions, presenting an opportunity to exploit these low-resolution priors for more efficient inference without degrading performance. In this work, we introduce Bottleneck Sampling, a training-free framework that leverages low-resolution priors to reduce computational overhead while preserving output fidelity. Bottleneck Sampling follows a high-low-high denoising workflow: it performs high-resolution denoising in the initial and final stages while operating at lower resolutions in intermediate steps. To mitigate aliasing and blurring artifacts, we further refine the resolution transition points and adaptively shift the denoising timesteps at each stage. We evaluate Bottleneck Sampling on both image and video generation tasks, where extensive experiments demonstrate that it accelerates inference by up to 3$\times$ for image generation and 2.5$\times$ for video generation, all while maintaining output quality comparable to the standard full-resolution sampling process across multiple evaluation metrics.
- Abstract(参考訳): 拡散モデルは、視覚的コンテンツ生成において顕著な能力を示してきたが、推論時に高い計算コストのためにデプロイすることは困難である。
この計算負担は主に、画像やビデオの解像度に関して、自己注意の二次的な複雑さから生じる。
既存の加速法はしばしば出力品質を損なうか、コスト再学習を必要とするが、ほとんどの拡散モデルは低解像度で事前訓練されており、性能を劣化させることなくより効率的な推論のためにこれらの低解像度の先行値を利用する機会を与える。
本研究では,低解像度の事前処理を生かしたトレーニングフリーフレームワークであるBottleneck Samplingを導入し,出力の忠実さを維持しながら計算オーバーヘッドを低減する。
Bottleneck Samplingは、中間ステップで低分解能で動作しながら、初期および最終段階で高分解能デノナイジングを実行する、ハイローハイデノナイジングワークフローに従っている。
アーティファクトのエイリアス化と曖昧化を緩和するため,分解能遷移点をさらに洗練し,各ステージにおける分解時間ステップを適応的にシフトさせる。
画像生成タスクと映像生成タスクの両方でBottleneck Smplingを評価し,画像生成に最大3$\times$,ビデオ生成に2.5$\times$の推論を高速化すると共に,複数の評価指標にまたがる標準的な全解像度サンプリングプロセスに匹敵する出力品質を維持しながら,広範な実験を行った。
関連論文リスト
- ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos [31.597957108232908]
ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。
近年,映像の質を高める「金音」の存在が報告されている。
本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
論文 参考訳(メタデータ) (2025-03-20T17:54:37Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - EPS: Efficient Patch Sampling for Video Overfitting in Deep Super-Resolution Model Training [15.684865589513597]
ビデオSRネットワークオーバーフィッティングのための効率的なパッチサンプリング手法であるEPSを提案する。
本手法は,クラスタの解像度や数に応じて,トレーニング用パッチの数を4%から25%に削減する。
最新のパッチサンプリング手法であるEMTと比較して,本手法は全体の実行時間を83%削減する。
論文 参考訳(メタデータ) (2024-11-25T12:01:57Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy [44.09909260046396]
雑音発生過程における雑音予測のステップを削減するための適応拡散法を提案する。
提案手法は, 最大25倍の速度アップを達成し, 元の処理と同一の処理結果を生成するとともに, デノナイズ処理を著しく高速化することができる。
論文 参考訳(メタデータ) (2024-10-13T15:19:18Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Compensation Sampling for Improved Convergence in Diffusion Models [12.311434647047427]
拡散モデルは画像生成において顕著な品質を達成するが、コストはかかる。
反復 denoising は高忠実度画像を生成するために多くの時間ステップを必要とする。
対象データの初期的不正確な再構成による復元誤差の蓄積により,復調過程が著しく制限されていることを論じる。
論文 参考訳(メタデータ) (2023-12-11T10:39:01Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time
Path Tracing [1.534667887016089]
モンテカルロ経路追跡は、現実的な画像合成の強力な手法であるが、低いサンプル数での高レベルのノイズに悩まされている。
本稿では,サンプリング重要度ネットワーク,遅延空間エンコーダネットワーク,デノイザネットワークをエンドツーエンドでトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-05T12:39:27Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。