Fugu-MT 論文翻訳(概要): Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models

論文の概要: Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models

arxiv url: http://arxiv.org/abs/2506.03781v1
Date: Wed, 04 Jun 2025 09:42:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.274429
Title: Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models
Title（参考訳）: 大規模言語モデルの正確な圧縮のための一様および二項符号化量子化
Authors: Seungcheol Park, Jeongin Bae, Beomseok Kwon, Minjun Kim, Byeongwook Kim, Se Jung Kwon, U Kang, Dongsoo Lee,
Abstract要約: 大規模言語モデル(LLM)の正確な量子化手法であるUniQuanF (UniQuanF with Flexible Mapping)を提案する。 UniQuanFは、UQのフレキシブルマッピング技術とBCQの非一様量子化レベルを統合することで、強い表現性と最適化性を利用する。実験の結果、UniQuanFは既存のUQとBCQの手法より優れており、GSM8Kベンチマークで最大4.60%高い精度を達成している。
参考スコア（独自算出の注目度）: 17.06112746144374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How can we quantize large language models while preserving accuracy? Quantization is essential for deploying large language models (LLMs) efficiently. Binary-coding quantization (BCQ) and uniform quantization (UQ) are promising quantization schemes that have strong expressiveness and optimizability, respectively. However, neither scheme leverages both advantages. In this paper, we propose UniQuanF (Unified Quantization with Flexible Mapping), an accurate quantization method for LLMs. UniQuanF harnesses both strong expressiveness and optimizability by unifying the flexible mapping technique in UQ and non-uniform quantization levels of BCQ. We propose unified initialization, and local and periodic mapping techniques to optimize the parameters in UniQuanF precisely. After optimization, our unification theorem removes computational and memory overhead, allowing us to utilize the superior accuracy of UniQuanF without extra deployment costs induced by the unification. Experimental results demonstrate that UniQuanF outperforms existing UQ and BCQ methods, achieving up to 4.60% higher accuracy on GSM8K benchmark.
Abstract（参考訳）: 精度を維持しながら、どのようにして大きな言語モデルを定量化できるのか? 大規模言語モデル(LLM)の効率的なデプロイには量子化が不可欠である。バイナリ符号化量子化(BCQ)と均一量子化(UQ)は、それぞれ強い表現性と最適化性を持つ有望な量子化スキームである。しかし、どちらのスキームも両方の利点を生かしていない。本稿では,LLMの正確な量子化手法であるUniQuanF (Uniified Quantization with Flexible Mapping)を提案する。 UniQuanFは、UQのフレキシブルマッピング技術とBCQの非一様量子化レベルを統一することにより、強い表現性と最適化性の両方を利用する。我々はUniQuanFのパラメータを正確に最適化するための統一初期化と局所および周期マッピング手法を提案する。最適化後、我々のユニフィケーション定理は計算とメモリのオーバーヘッドを除去し、ユニフィフィケーションによって引き起こされる余分な展開コストを伴わずに、UniQuanFの優れた精度を利用できるようにした。実験の結果、UniQuanFは既存のUQとBCQの手法より優れており、GSM8Kベンチマークで最大4.60%高い精度を達成している。

関連論文リスト

MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
NeUQI: Near-Optimal Uniform Quantization Parameter Initialization [41.08779476737888]
大規模言語モデル(LLM)のトレーニング後の量子化は、メモリフットプリントを削減し、遅延をデコードする有望なソリューションを提供する。最近の$geq 2$-bit均一量子化の研究は、ポスト量子化モデルの性能に顕著な改善をもたらした。均一量子化のための近似初期パラメータを効率的に決定する手法NeUQIを提案する。
論文参考訳（メタデータ） (2025-05-23T07:59:46Z)
GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models [2.1388885579612804]
GANQは、ハードウェア効率の良いルックアップテーブルベースのmpGEMMに最適化されたレイヤーワイズ後の非一様量子化フレームワークである。広汎な実験は、3ビットおよび4ビット量子化の最先端手法と比較して、GANQのFP16ベースラインからのパープレキシティギャップを低減する能力を示している。
論文参考訳（メタデータ） (2025-01-22T15:29:09Z)
Block encoding bosons by signal processing [0.0]
単位行列に対する量子特異値変換(QSVT)や量子固有値変換(QETU)といったQSPベースの手法がBEの実装に有効に利用できることを示す。本稿では,QSVTアルゴリズムとQETUアルゴリズムと組み合わせて,格子ボソンに対するハミルトニアンの符号化をブロックするいくつかの例を示す。 QSVTをBEに使用すると、サイト毎のキュービット数で最高のゲートカウントスケーリングが得られるが、LOVE-LCUは最大$lesssim11$ qubitsの演算子に対して、他のすべてのメソッドよりも優れている。
論文参考訳（メタデータ） (2024-08-29T18:00:02Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Efficient molecular conformation generation with quantum-inspired algorithm [4.625636280559916]
本稿では,分子展開(MU)問題の解法として量子インスパイアされたアルゴリズムを提案する。我々のアプローチによって決定されたコンフォメーションと密度汎関数理論(DFT)の根平均二乗偏差は無視できる。その結果,量子ハードウェアが成熟する以前にも,現実的な問題を解決するために量子インスパイアされたアルゴリズムを適用できることが示唆された。
論文参考訳（メタデータ） (2024-04-22T11:40:08Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文参考訳（メタデータ） (2023-09-05T01:39:09Z)
Distribution-Flexible Subset Quantization for Post-Quantizing Super-Resolution Networks [68.83451203841624]
本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。 DFSQは活性化のチャネルワイド正規化を行い、分布フレキシブルなサブセット量子化(SQ)を適用する 6ビットの量子化と8ビットの量子化では完全精度に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか生じない。
論文参考訳（メタデータ） (2023-05-10T04:19:11Z)
Ansatz-Independent Variational Quantum Classifier [0.0]
可変量子分類器 (VQC) がよく知られたカーネル法に収まることを示す。また、与えられたユニタリ演算子に対して効率的な量子回路を設計するための変分回路実現法(VCR)を提案する。
論文参考訳（メタデータ） (2021-02-02T21:25:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。