Fugu-MT 論文翻訳(概要): GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization

論文の概要: GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization

arxiv url: http://arxiv.org/abs/2605.26092v2
Date: Tue, 26 May 2026 18:01:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.068091
Title: GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization
Title（参考訳）: GoQuant:マルチプライヤフリーパワー・オブ・ツー・トランス量子化のための幾何学的直交残差投影
Authors: Maoyang Xiang, Bo Wang, Tao Luo,
Abstract要約: エッジデバイス上の大規模言語モデル (LLM) とビジョントランスフォーマー (ViT) は、メモリ制限と、密度の高いマルチプライアキュムレート (MAC) 配列によって引き起こされる重要なタイミングボトルネックによって制約される。超低ビット状態において、対数パワー・オブ・ツー(PoT)量子化はMAC演算をビットシフトで置き換えることで、ハードウェア効率の良い代替手段を提供する。このような幾何的制限に対処するため,アルゴリズム・ハードウェアの共同設計フレームワークであるOrthogonal Residual Projection (ORP)を提案する。
参考スコア（独自算出の注目度）: 4.700954456190739
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limitations and the critical timing bottlenecks introduced by dense Multiply-Accumulate (MAC) arrays. In the ultra-low bit regime, logarithmic Power-of-Two (PoT) quantization provides a hardware-efficient alternative by replacing MAC operations with bit-shifts. However, the non-uniform exponential lattice is inherently limited by a \textbf{Low Angular Resolution Regime}, a structural flaw that becomes particularly pronounced at sub-4-bit thresholds, leading to a notable degradation of high-dimensional feature manifolds. To address this geometric limitation, we propose Orthogonal Residual Projection (ORP), an algorithm-hardware co-design framework. By formulating quantization as a dual-basis geometric projection, ORP adaptively synthesizes a higher-resolution residual lattice using strictly shift-and-add operations. Furthermore, ORP's analytical solver offers a practical alternative to computationally intensive gradient-based optimization, reducing the full-model calibration time for LLaMA-2-7B to approximately \textbf{15 minutes}. Extensive evaluations demonstrate ORP's applicability across modalities and its hardware efficiency. Under the 3-bit (W3/A16) constraint, ORP achieves a perplexity of 6.10 on LLaMA-2-7B, comparing favorably to conventional MAC-intensive baselines like AWQ without relying on asymmetric scaling, while maintaining competitive accuracy in 4-bit scenarios. At the silicon level, standard-cell RTL synthesis at a 28nm node indicates that ORP effectively mitigates the timing bottlenecks associated with dense multiplier trees.
Abstract（参考訳）: エッジデバイスへのLarge Language Models (LLM) と Vision Transformer (ViT) の展開は、メモリ制限と、密集したMulti-Accumulate (MAC) アレイによって引き起こされる臨界タイミングボトルネックにより、著しく制限されている。超低ビット状態において、対数パワー・オブ・ツー(PoT)量子化はMAC演算をビットシフトで置き換えることで、ハードウェア効率の良い代替手段を提供する。しかし、非一様指数格子は本質的には、サブ-4ビットのしきい値で顕著に発音される構造的欠陥である \textbf{Low Angular Resolution Regime} によって制限され、高次元特徴多様体の顕著な劣化をもたらす。このような幾何的制限に対処するため,アルゴリズム・ハードウェアの共同設計フレームワークであるOrthogonal Residual Projection (ORP)を提案する。量子化を二重基底幾何学的射影として定式化することにより、ORPは厳密なシフト・アンド・加算演算を用いて高分解能残留格子を適応的に合成する。さらに、ORPの分析解法は、計算集約的な勾配に基づく最適化の実用的な代替手段を提供し、LLaMA-2-7B のフルモデル校正時間をおよそ \textbf{15分に短縮する。広範囲な評価は、ORPがモダリティを越えて適用可能であり、そのハードウェア効率を示している。 3ビット(W3/A16)制約の下では、ORPはLLaMA-2-7B上の6.10の難易度を達成し、非対称スケーリングに頼ることなく、4ビットシナリオでの競合精度を維持しながら、AWQのような従来のMAC集約ベースラインと比較した。シリコンレベルでは、28nmノードでの標準セルRTL合成は、OPPが高密度乗数木に付随するタイミングボトルネックを効果的に緩和することを示している。

関連論文リスト

Multi-Scale Dequant: Eliminating Dequantization Bottleneck via Activation Decomposition for Efficient LLM Inference [12.249074183271743]
量子化は、効率的な大言語モデル(LLM)の推論に不可欠である。行列乗算のための高精度な低ビット重みを復号化するためのステップ変換は、現代のAIアクセラレーターにとって重要なボトルネックとなっている。本稿では,GEMM臨界経路から重み/KV重みを除去する量子化フレームワークであるMulti-Scale Dequant(MSD)を提案する。
論文参考訳（メタデータ） (2026-05-13T09:49:56Z)
RUQuant: Towards Refining Uniform Quantization for Large Language Models [17.258420059228808]
ポストトレーニング量子化(PTQ)は、再トレーニングを必要とせずにモデルを圧縮することで、実用的なソリューションとして登場した。既存の方法は、アクティベーション分布の非一様性により、かなりの精度の劣化に悩まされることが多い。本研究では,ロイド-マックス最適条件に基づく理論的な観点から,活性化量子化問題を再考する。
論文参考訳（メタデータ） (2026-04-05T08:04:39Z)
BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文参考訳（メタデータ） (2026-04-05T04:25:07Z)
BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。 BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文参考訳（メタデータ） (2026-02-04T02:54:37Z)
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文参考訳（メタデータ） (2025-11-30T16:17:34Z)
PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
Variationally optimizing infinite projected entangled-pair states at large bond dimensions: A split corner transfer matrix renormalization group approach [0.2796197251957244]
本稿では,PEPS層を分離し,新しい環境テンソルを活用することで,精度を保ちながら計算複雑性を低減できる「スプリットCTMRG」アルゴリズムを提案する。量子格子モデルのベンチマークでは、変動エネルギー最適化のためのかなりのスピードアップが示され、この手法は大規模PEPSシミュレーションに有用である。
論文参考訳（メタデータ） (2025-02-14T16:59:33Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。 LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。 CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文参考訳（メタデータ） (2023-12-13T07:56:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。