論文の概要: MARR: Module-Adaptive Residual Reconstruction for Low-Bit Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2605.17997v1
- Date: Mon, 18 May 2026 07:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.009541
- Title: MARR: Module-Adaptive Residual Reconstruction for Low-Bit Post-Training Quantization
- Title(参考訳): MARR:低ビット後量子化のためのモジュール適応残差再構成
- Authors: Le Su, Xing Luo, Zhi Jin,
- Abstract要約: モジュール適応残差再構成(MARR)を提案する。
MARRはモジュール固有のスケーリング係数を割り当て、各モジュールに対して累積エラー補正と残留関連HAバイアスを適応的にバランスさせる。
いくつかの典型的な大規模言語モデル(LLM)と視覚変換器(ViT)の実験は、低ビット量子化下でのMARRの有効性を実証している。
- 参考スコア(独自算出の注目度): 42.904834974723535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, residual reconstruction-based model quantization methods have achieved promising performance in low-bit post-training quantization (PTQ) by introducing cross-layer residuals to reduce error accumulated from previous layers.However, these residuals may also introduce additional bias arising from the Hessian-approximation (HA) assumption underlying reconstruction-based PTQ, leading to suboptimal quantization performance.In this work, we analyze that multiplying the residual term by a scaling coefficient provides a direct way to mitigate the HA bias associated with residual strength, while preserving accumulated-error correction. More importantly, we observe that this trade-off is module-dependent, making a single global residual strength insufficient to balance effective correction and residual-related bias across modules.Based on these observations, we propose Module-Adaptive Residual Reconstruction (MARR), which assigns a module-specific scaling coefficient to adaptively balance accumulated-error correction and residual-related HA bias for each module.To avoid expensive per-module coefficient search and obtain a stable coefficient estimate, we design a Proportional-Integral-Derivative (PID)-based adaptive update strategy that uses reconstruction error as feedback to progressively refine this coefficient. Experiments on several typical large language models (LLMs) and vision transformers (ViTs) demonstrate the effectiveness of MARR under low-bit quantization (less than or equal to 4-bit), achieving up to 20.2% performance gains on LLMs and up to 4.6% relative gains on ViTs over the residual reconstruction state-of-the-art methods.Code will be made publicly available upon acceptance.
- Abstract(参考訳): 近年、残余再構成に基づくモデル量子化法は、前層から蓄積した誤差を低減し、低ビット後量子化(PTQ)において有望な性能を実現している。しかし、これらの残余は、再構成に基づくPTQ(Hessian-approximation, HA)の仮定から生じる追加バイアスを導入し、最適量子化性能をもたらす可能性がある。
さらに、このトレードオフはモジュール依存であり、モジュール間の有効補正と残留関連バイアスのバランスをとるのに、単一の大域的残差強度が不十分であることを観察し、モジュール固有のスケーリング係数を割り当て、モジュール毎の累積誤差補正と残留関連HAバイアスを適応的にバランスさせるモジュール適応残差再構成(MARR)を提案し、高価なモジュールごとの係数探索を回避し、安定な推定値を得るために、この係数を漸進的に改善するために再構成誤差を用いたPID(Proportional-Integral-Derivative)ベースの適応更新戦略を設計する。
いくつかの典型的な大規模言語モデル(LLM)とビジョントランスフォーマー(ViT)の実験では、低ビット量子化(4ビット以下)下でのMARRの有効性が示され、LLMでは最大20.2%の性能向上とViTでは最大4.6%の相対的な向上を実現した。
関連論文リスト
- DegBins: Degradation-Driven Binning for Depth Super-Resolution [57.61783461543096]
DegBinsは、劣化駆動のビンニングを利用して残留モデリングを適応的に強化する新しいDSRフレームワークである。
DegBinsは、精度、堅牢性、一般化の観点から、既存の最先端メソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-10T16:17:11Z) - Rethinking Residual Errors in Compensation-based LLM Quantization [15.416446372209924]
我々は、各量子化層の出力をその完全精度と整合させる非対称キャリブレーションプロセスを導入する。
残差は前層の出力差だけでなく,各層内の補償重みと原重みとの差からも生じる。
提案手法はGPTQとGPTAQの両方とシームレスに統合され,量子化性能が大幅に向上した。
論文 参考訳(メタデータ) (2026-04-09T08:20:59Z) - LLMs can Compress LLMs: Adaptive Pruning by Agents [0.0]
ポストトレーニングプルーニングは、性能を保ちながら計算コストを削減するための有望なアプローチとして現れている。
我々はエージェント誘導プルーニングを導入し、ファンデーションモデルが適応プルーニングエージェントとして機能する。
我々はQ3モデル(4Bおよび8Bパラメータ)の約45%の間隔で評価を行い、構造化プルーニングベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2026-01-14T18:45:36Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - A Cycle-Consistency Constrained Framework for Dynamic Solution Space Reduction in Noninjective Regression [4.04042026249306]
本稿では,サイクル一貫性に基づくデータ駆動トレーニングフレームワークを提案する。
正規化合成およびシミュレーションデータセットの実験により,提案手法が0.003未満のサイクル再構成誤差を達成することを示した。
このフレームワークは手動による介入への依存を著しく減らし、非インジェクティブ回帰タスクの潜在的な利点を示す。
論文 参考訳(メタデータ) (2025-07-07T04:28:01Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Probabilistic Traffic Forecasting with Dynamic Regression [15.31488551912888]
本稿では,交通予測における誤り過程の学習を取り入れた動的回帰(DR)フレームワークを提案する。
このフレームワークは、行列構造自己回帰(AR)モデルを用いてベースモデルのエラー系列をモデル化することにより、時間独立の仮定を緩和する。
新たに設計された損失関数は、非等方的誤差項の確率に基づいており、モデルがベースモデルの元の出力を保持しながら確率的予測を生成することができる。
論文 参考訳(メタデータ) (2023-01-17T01:12:44Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。