論文の概要: HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.04663v1
- Date: Wed, 06 Aug 2025 17:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.849331
- Title: HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models
- Title(参考訳): 階層的プルーン:大規模拡散モデルにおける位置認識圧縮
- Authors: Young D. Kwon, Rui Li, Sijia Li, Da Li, Sourav Bhattacharya, Stylianos I. Venieris,
- Abstract要約: 本稿では,鍵となる観測を基礎とした新しい圧縮フレームワークであるHierarchicalPruneを紹介する。
DMブロックは異なる機能的階層を示し、初期のブロックはセマンティック構造を確立し、後のブロックはテクスチャの洗練を扱う。
我々のフレームワークは、出力画像の品質を保ちながら、デバイス上の推論に適した範囲に数十億の拡散モデルをもたらす。
- 参考スコア(独自算出の注目度): 15.143674484507251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art text-to-image diffusion models (DMs) achieve remarkable quality, yet their massive parameter scale (8-11B) poses significant challenges for inferences on resource-constrained devices. In this paper, we present HierarchicalPrune, a novel compression framework grounded in a key observation: DM blocks exhibit distinct functional hierarchies, where early blocks establish semantic structures while later blocks handle texture refinements. HierarchicalPrune synergistically combines three techniques: (1) Hierarchical Position Pruning, which identifies and removes less essential later blocks based on position hierarchy; (2) Positional Weight Preservation, which systematically protects early model portions that are essential for semantic structural integrity; and (3) Sensitivity-Guided Distillation, which adjusts knowledge-transfer intensity based on our discovery of block-wise sensitivity variations. As a result, our framework brings billion-scale diffusion models into a range more suitable for on-device inference, while preserving the quality of the output images. Specifically, when combined with INT4 weight quantisation, HierarchicalPrune achieves 77.5-80.4% memory footprint reduction (e.g., from 15.8 GB to 3.2 GB) and 27.9-38.0% latency reduction, measured on server and consumer grade GPUs, with the minimum drop of 2.6% in GenEval score and 7% in HPSv2 score compared to the original model. Last but not least, our comprehensive user study with 85 participants demonstrates that HierarchicalPrune maintains perceptual quality comparable to the original model while significantly outperforming prior works.
- Abstract(参考訳): 最先端のテキスト画像拡散モデル (DM) は優れた品質を実現するが、その膨大なパラメータスケール (8-11B) はリソース制約されたデバイスに対する推論に重大な課題をもたらす。
本稿では,新しい圧縮フレームワークであるHierarchicalPruneについて述べる。DMブロックは異なる機能的階層を示し,初期ブロックはセマンティック構造を確立し,後続ブロックはテクスチャの洗練を扱う。
階層的プルーンは,(1)階層的位置決定法,(2)階層的構造整合性に不可欠な初期モデル部分を体系的に保護する位置重み保存法,(3)ブロック単位の感度変化の発見に基づいて知識伝達強度を調節する感性誘導蒸留法,の3つの手法を相乗的に組み合わせる。
その結果,本フレームワークは,出力画像の品質を維持しつつ,デバイス上での推論に適した範囲に,数十億の拡散モデルをもたらす。
具体的には、INT4重み量子化と組み合わせると、HierarchicalPruneは77.5-80.4%のメモリフットプリント削減(例えば、15.8GBから3.2GB)と27.9-38.0%の遅延低減を実現し、GenEvalのスコアは2.6%、HPSv2のスコアは7%である。
最後に、85人の参加者による包括的ユーザスタディでは、HierarchicalPruneがオリジナルのモデルに匹敵する知覚品質を維持しつつ、先行する作業を大幅に上回っていることが示されています。
関連論文リスト
- Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models [4.238165821317982]
LieQは、極端に低ビット圧縮下でのサブ7Bモデルの精度を維持するという課題に対処するメトリック駆動フレームワークである。
提案手法では,3つの相補的レイヤワイド診断手法(パープレキシティ・ドロップ,表現コンパクト性,トップkエネルギーゲイン)を導入している。
Qwen3-4Bでは、2.05ビット量子化でFP16ベースライン性能の95.9%を回復し、GPTQを19.7%、AWQを18.1%上回った。
論文 参考訳(メタデータ) (2025-08-05T11:17:04Z) - Process-aware and high-fidelity microstructure generation using stable diffusion [0.8060624778923473]
安定拡散3.5 Large (SD3.5-Large) に基づくプロセス認識生成モデリング手法を提案する。
本手法では,連続変数を直接モデル条件にエンコードする数値認識埋め込みを導入する。
我々は24個のラベル付きマイクログラフ上にVGG16エンコーダを備えた細調整U-Netに基づくセマンティックセグメンテーションモデルを用いてリアリズムを検証する。
論文 参考訳(メタデータ) (2025-07-01T06:16:53Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Controlled Latent Diffusion Models for 3D Porous Media Reconstruction [11.29275004613083]
多孔質媒体の3次元デジタル再構成は、地球科学の根本的な課題である。
本稿では,EDMフレームワーク内で動作する潜伏拡散モデルを用いて,この問題に対処する計算フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T13:36:55Z) - Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.5665059604715017]
ワンショットプルーニングは、特に多段階推論を必要とするタスクにおいて、大幅な品質劣化をもたらす。
品質の低下を回復するために、教師付き微調整(SFT)が一般的に用いられるが、これは破滅的な忘れを招きかねない。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを利用する。
論文 参考訳(メタデータ) (2024-10-13T19:53:40Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。
Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文 参考訳(メタデータ) (2024-07-05T16:14:53Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。