論文の概要: On the Quantization Robustness of Diffusion Language Models in Coding Benchmarks
- arxiv url: http://arxiv.org/abs/2604.20079v1
- Date: Wed, 22 Apr 2026 00:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.895072
- Title: On the Quantization Robustness of Diffusion Language Models in Coding Benchmarks
- Title(参考訳): 符号化ベンチマークにおける拡散言語モデルの量子化ロバスト性について
- Authors: Aarav Gupta, Gururaj Deshpande, Chandreyi Chakraborty,
- Abstract要約: 自動回帰大言語モデル(LLM)は、コーディングタスクにおいて高いパフォーマンスを達成するが、高いメモリと推論コストを発生させる。
本稿では,PTQ 技術,特に GPTQ と改良型 Hessian-Aware Quantization (HAWQ) アルゴリズムの適用と堅牢性について検討する。
- 参考スコア(独自算出の注目度): 0.09665867043802821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auto-regressive Large Language Models (LLMs) achieve strong performance on coding tasks, but incur high memory and inference costs. Diffusion-based language models (d-LLMs) offer bounded inference cost via iterative denoising, but their behavior under post-training quantization (PTQ) has been sparsely explored. We investigate the application and robustness of PTQ techniques, specifically GPTQ and a modified Hessian-Aware Quantization (HAWQ) algorithm, on a diffusion-based coding LLM (CoDA) and observe that these methods applied to CoDA exhibit greater robustness at low bitwidths compared to Qwen3-1.7B, its auto-regressive counterpart, under a standardized evaluation pipeline. We find that in our setup, CoDA exhibits greater robustness at low bitwidths (2-4 bits), with smaller accuracy degradation across HumanEval and MBPP benchmarks. Additionally, mixed-precision configurations derived from HAWQ provide smooth trade-offs across accuracy, latency, and memory. The results suggest that diffusion LLMs may offer advantages for efficient deployment due to more quantization-resilience.
- Abstract(参考訳): 自動回帰大言語モデル(LLM)は、コーディングタスクにおいて高いパフォーマンスを達成するが、高いメモリと推論コストを発生させる。
拡散に基づく言語モデル (d-LLMs) は反復的復調による有界推論コストを提供するが, ポストトレーニング量子化 (PTQ) 下での振る舞いは, わずかに検討されている。
拡散型符号化LLM(CoDA)におけるPTQ手法,特にGPTQと改良Hessian-Aware Quantization(HAWQ)アルゴリズムの適用とロバスト性を検討した。
我々の設定では、CoDAは低ビット幅(2-4ビット)でより堅牢性を示し、HumanEvalとMBPPベンチマーク間で精度の劣化が小さくなっている。
さらに、HAWQから派生した混合精度構成は、正確性、レイテンシ、メモリ間のスムーズなトレードオフを提供する。
その結果, 拡散LDMは, より量子化抵抗性が高いため, 効率的な展開に有利である可能性が示唆された。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - EDA-DM: Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models [8.742501879586309]
量子化はモデルの複雑性を効果的に低減し、後学習量子化(PTQ)は拡散モデルの圧縮と加速に非常に有望である。
既存のPTQ法は, キャリブレーションサンプルレベルと再構成出力レベルの両方の分布ミスマッチ問題に悩まされている。
本稿では,上記の問題に効率的に対処する標準化されたPTQ手法であるEDA-DMを提案する。
論文 参考訳(メタデータ) (2024-01-09T14:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。