Fugu-MT 論文翻訳(概要): Efficient Quantization Strategies for Latent Diffusion Models

論文の概要: Efficient Quantization Strategies for Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2312.05431v1
Date: Sat, 9 Dec 2023 01:47:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 21:00:15.654390
Title: Efficient Quantization Strategies for Latent Diffusion Models
Title（参考訳）: 潜在拡散モデルの効率的な量子化戦略
Authors: Yuewei Yang, Xiaoliang Dai, Jialiang Wang, Peizhao Zhang, Hongbo Zhang
Abstract要約: 潜時拡散モデル(LDM)は時間とともに潜時変数の動的進化を捉える。ポストトレーニング量子化(PTQ)は、ディープラーニングモデルの操作サイズを圧縮する手法である。本研究では, LDMを効率的に定量化する量子化戦略を提案する。
参考スコア（独自算出の注目度）: 20.942161659019554
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Latent Diffusion Models (LDMs) capture the dynamic evolution of latent variables over time, blending patterns and multimodality in a generative system. Despite the proficiency of LDM in various applications, such as text-to-image generation, facilitated by robust text encoders and a variational autoencoder, the critical need to deploy large generative models on edge devices compels a search for more compact yet effective alternatives. Post Training Quantization (PTQ), a method to compress the operational size of deep learning models, encounters challenges when applied to LDM due to temporal and structural complexities. This study proposes a quantization strategy that efficiently quantize LDMs, leveraging Signal-to-Quantization-Noise Ratio (SQNR) as a pivotal metric for evaluation. By treating the quantization discrepancy as relative noise and identifying sensitive part(s) of a model, we propose an efficient quantization approach encompassing both global and local strategies. The global quantization process mitigates relative quantization noise by initiating higher-precision quantization on sensitive blocks, while local treatments address specific challenges in quantization-sensitive and time-sensitive modules. The outcomes of our experiments reveal that the implementation of both global and local treatments yields a highly efficient and effective Post Training Quantization (PTQ) of LDMs.
Abstract（参考訳）: 潜在拡散モデル(LDMs)は、時間とともに潜伏変数の動的進化を捉え、生成系におけるパターンと多モード性をブレンドする。堅牢なテキストエンコーダと変分オートエンコーダによって促進されるテキスト・ツー・イメージ生成などの様々なアプリケーションにおけるLCMの習熟度にもかかわらず、エッジデバイスに大規模な生成モデルをデプロイする重要な必要性は、よりコンパクトで効果的な代替手段の探索を補完する。深層学習モデルの操作サイズを圧縮するPTQ(Post Training Quantization)は,時間的・構造的複雑さからLDMに適用した場合,課題に遭遇する。本研究では、SQNR(Signal-to-Quantization-Noise Ratio)を指標として、LDMを効率的に定量化する量子化戦略を提案する。量子化誤差を相対雑音として扱い、モデルの感度部分を特定することにより、グローバル戦略とローカル戦略の両方を包含する効率的な量子化アプローチを提案する。グローバル量子化プロセスは、高精度なブロックの量子化を開始することで相対量子化ノイズを軽減し、局所的な処理は量子化に敏感で時間に敏感なモジュールの特定の課題に対処する。実験の結果, グローバル・ローカル両処理の実装は, LDMの高効率かつ効果的なポストトレーニング量子化(PTQ)をもたらすことが明らかとなった。

関連論文リスト

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
Deep Unfolding with Kernel-based Quantization in MIMO Detection [26.033613526407226]
本稿では,深層展開ネットワークのためのカーネルベースの適応量子化(KAQ)フレームワークを提案する。提案するKAQフレームワークの精度は従来の手法よりも優れており、モデルによる推論遅延の低減に成功している。
論文参考訳（メタデータ） (2025-05-19T05:50:24Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization [15.898378661128334]
強化学習(RL)アルゴリズムは次元性の呪いに苦しむことが知られている。本稿では,元のマルコフ決定過程(MDP)を,より小さく,独立に進化するMDPに大まかに分解することで,次元性の呪いを克服することを提案する。提案手法は,両アルゴリズムに改良された複雑性保証を提供する。
論文参考訳（メタデータ） (2024-11-12T07:08:00Z)
Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文参考訳（メタデータ） (2024-10-10T17:02:48Z)
Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文参考訳（メタデータ） (2024-08-07T12:42:09Z)
Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文参考訳（メタデータ） (2024-06-07T01:30:21Z)
Adaptive quantization with mixed-precision based on low-cost proxy [8.527626602939105]
本稿では,Low-Cost Proxy-Based Adaptive Mixed-Precision Model Quantization (LCPAQ) と呼ばれる新しいモデル量子化法を提案する。ハードウェア対応モジュールはハードウェアの制約を考慮して設計され、適応型混合精度量子化モジュールは量子化感度を評価するために開発された。 ImageNetの実験では、提案したLCPAQが既存の混合精度モデルに匹敵するあるいは優れた量子化精度を達成している。
論文参考訳（メタデータ） (2024-02-27T17:36:01Z)
Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers [10.566264033360282]
ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-14T05:58:43Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
Low-bit Quantization of Recurrent Neural Network Language Models Using Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。 2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文参考訳（メタデータ） (2021-11-29T09:30:06Z)
Bilinear dynamic mode decomposition for quantum control [4.069849286089743]
本研究では,データ駆動型回帰手法である双線形動的モード分解(biDMD)を開発し,時系列測定を用いてQOCの量子システム同定を行う。本研究は,いくつかの代表量子系に対するアプローチの有効性と性能を実証し,実験結果と一致したことを示す。
論文参考訳（メタデータ） (2020-10-27T19:38:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。