論文の概要: Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2508.14896v1
- Date: Wed, 20 Aug 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.547969
- Title: Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
- Title(参考訳): 量子化とdLLM:拡散LDMのポストトレーニング量子化の体系的研究
- Authors: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun,
- Abstract要約: 本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は、最先端のPTQ手法を実装し、複数のタスクタイプとモデル変種を包括的に評価する。
- 参考スコア(独自算出の注目度): 54.70676039314542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion large language models (dLLMs) have introduced a promising alternative to autoregressive (AR) LLMs for natural language generation tasks, leveraging full attention and denoising-based decoding strategies. However, the deployment of these models on edge devices remains challenging due to their massive parameter scale and high resource demands. While post-training quantization (PTQ) has emerged as a widely adopted technique for compressing AR LLMs, its applicability to dLLMs remains largely unexplored. In this work, we present the first systematic study on quantizing diffusion-based language models. We begin by identifying the presence of activation outliers, characterized by abnormally large activation values that dominate the dynamic range. These outliers pose a key challenge to low-bit quantization, as they make it difficult to preserve precision for the majority of values. More importantly, we implement state-of-the-art PTQ methods and conduct a comprehensive evaluation across multiple task types and model variants. Our analysis is structured along four key dimensions: bit-width, quantization method, task category, and model type. Through this multi-perspective evaluation, we offer practical insights into the quantization behavior of dLLMs under different configurations. We hope our findings provide a foundation for future research in efficient dLLM deployment. All codes and experimental setups will be released to support the community.
- Abstract(参考訳): 拡散大言語モデル(dLLM)の最近の進歩は、自然言語生成タスクに自己回帰的(AR) LLM に代わる有望な代替手段を導入している。
しかし、これらのモデルのエッジデバイスへの展開は、パラメータの大規模化と高いリソース要求のため、依然として困難である。
ポストトレーニング量子化(PTQ)は、AR LLMの圧縮技術として広く採用されているが、dLLMsの適用性は未解明のままである。
本研究では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
まず、動的範囲を支配している異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定することから始める。
これらの外れ値は、ほとんどの値の精度を維持するのが難しくなるため、低ビット量子化にとって重要な課題となる。
より重要なことは、最先端のPTQ手法を実装し、複数のタスクタイプおよびモデル変種に対して包括的な評価を行うことである。
我々の分析はビット幅、量子化法、タスクカテゴリ、モデルタイプという4つの重要な次元に沿って構成されている。
このマルチパースペクティブ評価を通じて、異なる構成下でのdLLMの量子化挙動に関する実用的な知見を提供する。
われわれの発見が、効率的なdLLMデプロイメントにおける将来の研究の基盤となることを願っている。
すべてのコードと実験的なセットアップは、コミュニティをサポートするためにリリースされます。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.31088116526825]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。
自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - Precision Where It Matters: A Novel Spike Aware Mixed-Precision Quantization Strategy for LLaMA-based Language Models [1.4999444543328293]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。
本稿では,LLaMAアーキテクチャとその導関数に着目し,LLMの量子化について検討する。
LLaMAモデルに適した新しい混合精度量子化手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T11:52:18Z) - A Comprehensive Study on Quantization Techniques for Large Language Models [0.0]
大規模言語モデル(LLM)は、学術と産業の両方で広く研究され、利用されている。
LLMは、リソースに制約のあるIoTデバイスや組み込みシステムにデプロイする上で、重大な課題を提示している。
量子化(Quantization)は、モデルの値の精度を小さな離散値のセットに縮める技術であり、有望な解決策を提供する。
論文 参考訳(メタデータ) (2024-10-30T04:55:26Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。