論文の概要: PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.13894v1
- Date: Fri, 20 Sep 2024 20:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:39:44.176435
- Title: PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models
- Title(参考訳): PTQ4ADM:効率的なテキスト条件付き音声拡散モデルのための後処理量子化
- Authors: Jayneel Vora, Aditya Krishnan, Nader Bouacida, Prabhu RV Shankar, Prasant Mohapatra,
- Abstract要約: この研究は、音声拡散モデル(ADM)を定量化する新しいフレームワークであるPTQ4ADMを導入している。
本研究の主な貢献は,(1)カバレッジ駆動型プロンプト拡張法,(2)テキスト条件ADMのアクティベーション対応校正セット生成アルゴリズムである。
PTQ4ADMは、完全精度モデルに匹敵する合成品質の指標を達成しつつ、モデルサイズを最大70%削減する能力を示した。
- 参考スコア(独自算出の注目度): 8.99127212785609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion models have emerged as state-of-the-art in generative tasks across image, audio, and video domains, producing high-quality, diverse, and contextually relevant data. However, their broader adoption is limited by high computational costs and large memory footprints. Post-training quantization (PTQ) offers a promising approach to mitigate these challenges by reducing model complexity through low-bandwidth parameters. Yet, direct application of PTQ to diffusion models can degrade synthesis quality due to accumulated quantization noise across multiple denoising steps, particularly in conditional tasks like text-to-audio synthesis. This work introduces PTQ4ADM, a novel framework for quantizing audio diffusion models(ADMs). Our key contributions include (1) a coverage-driven prompt augmentation method and (2) an activation-aware calibration set generation algorithm for text-conditional ADMs. These techniques ensure comprehensive coverage of audio aspects and modalities while preserving synthesis fidelity. We validate our approach on TANGO, Make-An-Audio, and AudioLDM models for text-conditional audio generation. Extensive experiments demonstrate PTQ4ADM's capability to reduce the model size by up to 70\% while achieving synthesis quality metrics comparable to full-precision models($<$5\% increase in FD scores). We show that specific layers in the backbone network can be quantized to 4-bit weights and 8-bit activations without significant quality loss. This work paves the way for more efficient deployment of ADMs in resource-constrained environments.
- Abstract(参考訳): 拡散モデルは、画像、オーディオ、ビデオドメインにわたる生成タスクの最先端として現れ、高品質で多様な、文脈に関連のあるデータを生み出している。
しかし、より広範な採用は、高い計算コストと大きなメモリフットプリントによって制限される。
ポストトレーニング量子化(PTQ)は、低帯域幅パラメータによるモデル複雑性の低減によるこれらの課題を軽減するための有望なアプローチを提供する。
しかし、拡散モデルへのPTQの直接適用は、特にテキスト対オーディオ合成のような条件付きタスクにおいて、複数のデノナイズステップにまたがる蓄積量子化ノイズによる合成品質を劣化させる可能性がある。
本研究は、音声拡散モデル(ADM)を定量化する新しいフレームワークであるPTQ4ADMを紹介する。
本研究の主な貢献は,(1)カバレッジ駆動型プロンプト拡張法,(2)テキスト条件ADMのアクティベーション対応校正セット生成アルゴリズムである。
これらの技術は、合成の忠実さを維持しながら、オーディオの側面とモダリティを包括的に網羅することを保証する。
我々は,テキスト条件音声生成のためのTANGO,Make-An-Audio,Audioモデルに対するアプローチを検証する。
PTQ4ADMは、完全精度モデルに匹敵する合成品質指標(FDスコアの$<$5\%増加)を達成しつつ、モデルサイズを最大70\%減少させる能力を示した。
バックボーンネットワーク内の特定の層を4ビットの重みと8ビットのアクティベーションに定量化できることを示す。
この作業は、リソース制約のある環境でのADMのより効率的なデプロイの道を開く。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - QNCD: Quantization Noise Correction for Diffusion Models [15.189069680672239]
拡散モデルは画像合成に革命をもたらし、品質と創造性の新しいベンチマークを設定した。
トレーニング後の量子化は、サンプルの品質を犠牲にしてサンプリングを加速するソリューションを提供する。
サンプリング過程を通して量子化ノイズを最小化することを目的とした量子化ノイズ補正方式(QNCD)を導入する。
論文 参考訳(メタデータ) (2024-03-28T04:24:56Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Enhancing Quantised End-to-End ASR Models via Personalisation [12.971231464928806]
量子化モデル(PQM)のための新しいパーソナライズ戦略を提案する。
PQMは 4-bit NormalFloat Quantisation (NF4) アプローチをモデル量子化とSATのローランク適応(LoRA)に用いている。
LibriSpeechとTED-Lium 3コーパスで実験が行われた。
論文 参考訳(メタデータ) (2023-09-17T02:35:21Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Adversarial Audio Synthesis with Complex-valued Polynomial Networks [60.231877895663956]
音声における時間周波数(TF)表現は、実数値ネットワークとしてますますモデル化されている。
我々は,このような複雑な数値表現を自然な方法で統合するAPOLLOと呼ばれる複雑な数値ネットワークを導入する。
APOLLOは、音声生成におけるSC09の最先端拡散モデルよりも17.5%$改善され、8.2%ドルとなる。
論文 参考訳(メタデータ) (2022-06-14T12:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。