Fugu-MT 論文翻訳(概要): Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression

論文の概要: Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression

arxiv url: http://arxiv.org/abs/2504.07389v1
Date: Thu, 10 Apr 2025 02:19:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 22:03:24.515988
Title: Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression
Title（参考訳）: タスク回路量子化:知識の局在化と圧縮の解釈可能性を活用する
Authors: Hanqi Xiao, Yi-Lin Sung, Elias Stengel-Eskin, Mohit Bansal,
Abstract要約: 後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
参考スコア（独自算出の注目度）: 55.323397702682506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Post-training quantization (PTQ) reduces a model's memory footprint by mapping full precision weights into low bit weights without costly retraining, but can degrade its downstream performance especially in low 2- to 3-bit settings. We develop a new mixed-precision PTQ approach, Task-Circuit Quantization (TaCQ), that draws parallels to automated circuit discovery, directly conditioning the quantization process on specific weight circuits -- which we define as sets of weights associated with downstream task performance. These weights are kept as 16-bit weights, while others are quantized, maintaining performance while only adding a marginal memory cost. Specifically, TaCQ contrasts unquantized model weights with a uniformly-quantized model to estimate the expected change in weights due to quantization and uses gradient information to predict the resulting impact on task performance, allowing us to preserve task-specific weights. We compare TaCQ-based quantization to existing mixed-precision quantization methods when conditioning both on general-purpose and task-specific data. Across QA, math reasoning, and text-to-SQL tasks for both Llama-3 and Qwen2.5, we find that TaCQ outperforms baselines using the same calibration data and a lower weight budget, achieving major improvements in the 2 and 3-bit regime. With only 3.1 bits we are able to recover 96% of Llama-3-8B-Instruct's unquantized 16-bit MMLU performance, obtaining a 5.25% absolute improvement over SPQR. We also observe consistently large gains over existing methods in the 2-bit regime, with an average gain of 14.74% over the strongest baseline, SliM-LLM. Moreover, we observe a 7.20% gain without conditioning on specific tasks, showing TaCQ's ability to identify important weights is not limited to task-conditioned settings.
Abstract（参考訳）: 後トレーニング量子化(PTQ)は、全精度の重みをコスト削減することなく低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減するが、特に2ビットから3ビットの低い設定では、ダウンストリーム性能を低下させることができる。そこで我々は,特定の重み回路上での量子化プロセスを直接条件として,自動回路発見に並列性を持つタスク回路量子化(TaCQ)という,新しい混合精度PTQ手法を開発し,下流タスク性能に関連する重みの集合として定義する。これらの重みは16ビットの重みとして保持され、他の重みは量子化され、性能を維持しながら、限界メモリコストのみを加算する。具体的には、TaCQは、量子化による重みの変化を予測するために一様量子化モデルと非定量化モデルの重みを対比し、グラデーション情報を用いてタスク性能への影響を予測し、タスク固有の重みを保存する。汎用データとタスク固有データの両方を条件に、TaCQに基づく量子化を既存の混合精度量子化法と比較する。 Llama-3とQwen2.5の両方のQA、数学推論、テキスト-SQLタスクにおいて、TaCQは、同じキャリブレーションデータと低いウェイト予算を使用してベースラインよりも優れており、2ビットと3ビットのシステムで大幅に改善されている。わずか3.1ビットで、Llama-3-8B-Instructの16ビットMMLU性能の96%を回復できる。また、我々は2ビット方式における既存の手法よりも一貫して大きな利得を観察し、最強のベースラインであるSliM-LLMよりも平均14.74%の利得を得た。さらに、特定のタスクを条件付けせずに7.20%のゲインを観測し、重要な重みを識別するTaCQの能力はタスク条件設定に限らないことを示した。

関連論文リスト

Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
Rethinking Post-Training Quantization: Introducing a Statistical Pre-Calibration Approach [22.25748046511075]
ポストトレーニング量子化(PTQ)技術は、精度を維持するためにキャリブレーションプロセスに依存する。本稿では,キャリブレーションに基づくPTQ手法の先駆者と見なせる重み適応型PTQ法を提案する。提案手法は,最も一般的なキャリブレーションに基づくPTQ法と同等に動作可能であることを示す。
論文参考訳（メタデータ） (2025-01-15T19:44:15Z)
SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。 SLIMはモデル精度を最大5.66%(LLaMA-2-7B)に改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。また,小調整なしでSLIMと比較して,最大1.66%(LLaMA-2-13B)の精度向上を図ったPEFTレシピを提案する。
論文参考訳（メタデータ） (2024-10-12T18:36:07Z)
L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文参考訳（メタデータ） (2024-02-07T14:35:05Z)
EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文参考訳（メタデータ） (2023-10-05T02:51:53Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。 A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。 A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文参考訳（メタデータ） (2023-08-25T17:28:58Z)
Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文参考訳（メタデータ） (2023-06-09T09:42:21Z)
Quantization-Guided Training for Compact TinyML Models [8.266286436571887]
最適化された低ビット精度目標に対してDNNトレーニングを導くためのQGT(Quantization Guided Training)手法を提案する。 QGTはカスタマイズされた正規化を使用して、量子化エラーを減らしながら精度を最大化する分布に向けて重み値を促進する。
論文参考訳（メタデータ） (2021-03-10T18:06:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。