論文の概要: Efficient Quantization Strategies for Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.05431v1
- Date: Sat, 9 Dec 2023 01:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:00:15.654390
- Title: Efficient Quantization Strategies for Latent Diffusion Models
- Title(参考訳): 潜在拡散モデルの効率的な量子化戦略
- Authors: Yuewei Yang, Xiaoliang Dai, Jialiang Wang, Peizhao Zhang, Hongbo Zhang
- Abstract要約: 潜時拡散モデル(LDM)は時間とともに潜時変数の動的進化を捉える。
ポストトレーニング量子化(PTQ)は、ディープラーニングモデルの操作サイズを圧縮する手法である。
本研究では, LDMを効率的に定量化する量子化戦略を提案する。
- 参考スコア(独自算出の注目度): 20.942161659019554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Diffusion Models (LDMs) capture the dynamic evolution of latent
variables over time, blending patterns and multimodality in a generative
system. Despite the proficiency of LDM in various applications, such as
text-to-image generation, facilitated by robust text encoders and a variational
autoencoder, the critical need to deploy large generative models on edge
devices compels a search for more compact yet effective alternatives. Post
Training Quantization (PTQ), a method to compress the operational size of deep
learning models, encounters challenges when applied to LDM due to temporal and
structural complexities. This study proposes a quantization strategy that
efficiently quantize LDMs, leveraging Signal-to-Quantization-Noise Ratio (SQNR)
as a pivotal metric for evaluation. By treating the quantization discrepancy as
relative noise and identifying sensitive part(s) of a model, we propose an
efficient quantization approach encompassing both global and local strategies.
The global quantization process mitigates relative quantization noise by
initiating higher-precision quantization on sensitive blocks, while local
treatments address specific challenges in quantization-sensitive and
time-sensitive modules. The outcomes of our experiments reveal that the
implementation of both global and local treatments yields a highly efficient
and effective Post Training Quantization (PTQ) of LDMs.
- Abstract(参考訳): 潜在拡散モデル(LDMs)は、時間とともに潜伏変数の動的進化を捉え、生成系におけるパターンと多モード性をブレンドする。
堅牢なテキストエンコーダと変分オートエンコーダによって促進されるテキスト・ツー・イメージ生成などの様々なアプリケーションにおけるLCMの習熟度にもかかわらず、エッジデバイスに大規模な生成モデルをデプロイする重要な必要性は、よりコンパクトで効果的な代替手段の探索を補完する。
深層学習モデルの操作サイズを圧縮するPTQ(Post Training Quantization)は,時間的・構造的複雑さからLDMに適用した場合,課題に遭遇する。
本研究では、SQNR(Signal-to-Quantization-Noise Ratio)を指標として、LDMを効率的に定量化する量子化戦略を提案する。
量子化誤差を相対雑音として扱い、モデルの感度部分を特定することにより、グローバル戦略とローカル戦略の両方を包含する効率的な量子化アプローチを提案する。
グローバル量子化プロセスは、高精度なブロックの量子化を開始することで相対量子化ノイズを軽減し、局所的な処理は量子化に敏感で時間に敏感なモジュールの特定の課題に対処する。
実験の結果, グローバル・ローカル両処理の実装は, LDMの高効率かつ効果的なポストトレーニング量子化(PTQ)をもたらすことが明らかとなった。
関連論文リスト
- Adaptive quantization with mixed-precision based on low-cost proxy [8.527626602939105]
本稿では,Low-Cost Proxy-Based Adaptive Mixed-Precision Model Quantization (LCPAQ) と呼ばれる新しいモデル量子化法を提案する。
ハードウェア対応モジュールはハードウェアの制約を考慮して設計され、適応型混合精度量子化モジュールは量子化感度を評価するために開発された。
ImageNetの実験では、提案したLCPAQが既存の混合精度モデルに匹敵するあるいは優れた量子化精度を達成している。
論文 参考訳(メタデータ) (2024-02-27T17:36:01Z) - Towards Next-Level Post-Training Quantization of Hyper-Scale
Transformers [10.883809442514135]
トレーニング後の量子化(PTQ)は、モバイルデバイスやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T05:58:43Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [76.30313058201182]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [7.621880623381026]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
量子化の様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Bilinear dynamic mode decomposition for quantum control [4.069849286089743]
本研究では,データ駆動型回帰手法である双線形動的モード分解(biDMD)を開発し,時系列測定を用いてQOCの量子システム同定を行う。
本研究は,いくつかの代表量子系に対するアプローチの有効性と性能を実証し,実験結果と一致したことを示す。
論文 参考訳(メタデータ) (2020-10-27T19:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。