論文の概要: OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot
- arxiv url: http://arxiv.org/abs/2510.06751v1
- Date: Wed, 08 Oct 2025 08:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.363043
- Title: OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot
- Title(参考訳): OBS-Diff:1ショットで拡散モデルの正確なプルーニング
- Authors: Junhan Zhu, Hesong Wang, Mingluo Su, Zefang Wang, Huan Wang,
- Abstract要約: OBS-Diffは、大規模テキスト・画像拡散モデルの正確かつトレーニング不要な圧縮を可能にする、新しいワンショットプルーニングフレームワークである。
広汎な実験により、OBS-Diffは拡散モデルに対する最先端のワンショットプルーニングを実現し、視覚的品質の最小限の劣化を伴う推論加速を実現する。
- 参考スコア(独自算出の注目度): 4.990334603434127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-image diffusion models, while powerful, suffer from prohibitive computational cost. Existing one-shot network pruning methods can hardly be directly applied to them due to the iterative denoising nature of diffusion models. To bridge the gap, this paper presents OBS-Diff, a novel one-shot pruning framework that enables accurate and training-free compression of large-scale text-to-image diffusion models. Specifically, (i) OBS-Diff revitalizes the classic Optimal Brain Surgeon (OBS), adapting it to the complex architectures of modern diffusion models and supporting diverse pruning granularity, including unstructured, N:M semi-structured, and structured (MHA heads and FFN neurons) sparsity; (ii) To align the pruning criteria with the iterative dynamics of the diffusion process, by examining the problem from an error-accumulation perspective, we propose a novel timestep-aware Hessian construction that incorporates a logarithmic-decrease weighting scheme, assigning greater importance to earlier timesteps to mitigate potential error accumulation; (iii) Furthermore, a computationally efficient group-wise sequential pruning strategy is proposed to amortize the expensive calibration process. Extensive experiments show that OBS-Diff achieves state-of-the-art one-shot pruning for diffusion models, delivering inference acceleration with minimal degradation in visual quality.
- Abstract(参考訳): 大規模テキスト・画像拡散モデルは強力ではあるが、計算コストの禁止に悩まされている。
既存のワンショット・ネットワーク・プルーニング法は拡散モデルの反復的復調性のために直接適用することは困難である。
このギャップを埋めるために,大規模なテキスト・画像拡散モデルの正確かつトレーニング不要な圧縮を可能にする,新しいワンショットプルーニングフレームワークOBS-Diffを提案する。
具体的には
i)OBS-Diffは、古典的な最適脳サージオン(OBS)を再活性化し、近代拡散モデルの複雑なアーキテクチャに適応し、非構造化、N:M半構造化、構造化(MHAヘッドとFFNニューロン)の空間性を含む多様なプルーニング粒度をサポートする。
二 拡散過程の反復力学と整合させるため、誤差蓄積の観点から問題を検証し、対数-減少重み付け方式を取り入れた新しい時間ステップ対応ヘッセン構成を提案し、潜在的なエラーの蓄積を軽減するために、早期の時間ステップにより高い重要性を割り当てる。
さらに, 高額なキャリブレーションプロセスを改善するために, 計算効率のよいグループワイド・シーケンシャル・プルーニング戦略を提案する。
広汎な実験により、OBS-Diffは拡散モデルに対する最先端のワンショットプルーニングを実現し、視覚的品質の最小限の劣化を伴う推論加速を実現する。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Optimizing for the Shortest Path in Denoising Diffusion Model [8.884907787678731]
最短経路拡散モデル(ShortDF)は、復調誤差の最小化を目的とした最短経路問題である。
複数の標準ベンチマークの実験により、ShortDFは拡散時間(またはステップ)を大幅に短縮することが示された。
この研究は、インタラクティブな拡散ベースのアプリケーションへの道を開き、高速なデータ生成の基礎を確立します。
論文 参考訳(メタデータ) (2025-03-05T08:47:36Z) - Timestep-Aware Correction for Quantized Diffusion Models [28.265582848911574]
本稿では,量子化誤差を動的に補正する量子化拡散モデルの時間ステップ対応補正法を提案する。
提案手法を低精度拡散モデルに応用することにより,出力品質の大幅な向上が期待できる。
論文 参考訳(メタデータ) (2024-07-04T13:22:31Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral
Diffusion Model [18.25548360119976]
マルチスペクトル画像(MSI)におけるスナップショット圧縮画像(SCI)再構成の精度向上を目指した。
DiffSCIと呼ばれる新しいゼロショット拡散モデルを提案する。
我々は,DiffSCIが自己監督的,ゼロショット的アプローチよりも顕著な性能向上を示すことを示すため,広範囲な試験を行った。
論文 参考訳(メタデータ) (2023-11-19T20:27:14Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。