論文の概要: BitsFusion: 1.99 bits Weight Quantization of Diffusion Model
- arxiv url: http://arxiv.org/abs/2406.04333v2
- Date: Sat, 26 Oct 2024 06:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:00.162505
- Title: BitsFusion: 1.99 bits Weight Quantization of Diffusion Model
- Title(参考訳): BitsFusion: 1.99bits 拡散モデルの軽量量子化
- Authors: Yang Sui, Yanyu Li, Anil Kag, Yerlan Idelbayev, Junli Cao, Ju Hu, Dhritiman Sagar, Bo Yuan, Sergey Tulyakov, Jian Ren,
- Abstract要約: 安定拡散v1.5から1.99ビットまでのUNetを量子化し、7.9倍のサイズのモデルを実現する新しい重み量子化法を開発した。
我々は、様々なベンチマークデータセットと人による評価を通じて、量子化モデルを広範囲に評価し、その優れた生成品質を実証した。
- 参考スコア(独自算出の注目度): 43.11229823281721
- License:
- Abstract: Diffusion-based image generation models have achieved great success in recent years by showing the capability of synthesizing high-quality content. However, these models contain a huge number of parameters, resulting in a significantly large model size. Saving and transferring them is a major bottleneck for various applications, especially those running on resource-constrained devices. In this work, we develop a novel weight quantization method that quantizes the UNet from Stable Diffusion v1.5 to 1.99 bits, achieving a model with 7.9X smaller size while exhibiting even better generation quality than the original one. Our approach includes several novel techniques, such as assigning optimal bits to each layer, initializing the quantized model for better performance, and improving the training strategy to dramatically reduce quantization error. Furthermore, we extensively evaluate our quantized model across various benchmark datasets and through human evaluation to demonstrate its superior generation quality.
- Abstract(参考訳): 拡散に基づく画像生成モデルは近年,高品質なコンテンツを合成する能力を示すことで大きな成功を収めている。
しかし、これらのモデルには膨大な数のパラメータが含まれており、結果としてモデルのサイズが大幅に大きくなる。
各種アプリケーション、特にリソース制約のあるデバイス上で動作しているアプリケーションにとって、それらの保存と転送は大きなボトルネックとなる。
本研究では, 安定拡散v1.5から1.99ビットまでのUNetを定量化する新しい重み量子化法を開発した。
提案手法には,各層に最適なビットを割り当てること,量子化モデルの初期化による性能向上,量子化誤差を劇的に低減するためのトレーニング戦略の改善など,いくつかの新しい手法が含まれている。
さらに、様々なベンチマークデータセットと人による評価を通じて、量子化モデルを広範囲に評価し、その優れた生成品質を実証する。
関連論文リスト
- Error Diffusion: Post Training Quantization with Block-Scaled Number Formats for Neural Networks [1.042733720689638]
量子化は、データ移動、ストレージ、乗算や加算のような操作など、モデルのハードウェアコストを削減します。
ブロックスケールの数値形式のようなよりエキゾチックな数値エンコーディングは、固定ビット予算を利用してモデルパラメータをエンコードする利点を示している。
本稿では,ブロックスケールデータフォーマットをサポートするポストトレーニング量子化のための誤り拡散(ED)を提案する。
論文 参考訳(メタデータ) (2024-10-15T02:40:50Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
後トレーニング量子化(PTQ)は、モデルサイズを圧縮し、事前トレーニングされたモデルの推論を高速化し、モデルの再トレーニングをなくし、有望なソリューションを提供する。
We have observed the existing PTQ framework designed for both ViT and conventional Diffusion model fall into biased Quantization and result result great performance degradation。
重みとアクティベーションの入力チャネル間の実質的な分散を管理するための微粒な量子化、量子化の粒度を最適化し冗長性を緩和する自動探索戦略、タイムステップ間でのアクティベーション変化を捉える動的アクティベーション量子化の3つの手法をシームレスに統合するQ-DiTを考案した。
論文 参考訳(メタデータ) (2024-06-25T07:57:27Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Effective Quantization for Diffusion Models on CPUs [5.419875683826296]
量子化(Quantization)は、ディープラーニングモデルを圧縮して効率を向上させる手法で、拡散モデルに適用する際の課題を提示する。
量子化学習と蒸留の両方を活用することで拡散モデルを定量化する新しい手法を提案する。
提案手法は,CPU上での推論効率を実証しながら,高画質な画像が得られることを示す。
論文 参考訳(メタデータ) (2023-11-02T13:14:01Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。