論文の概要: Tequila: Trapping-free Ternary Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.23809v1
- Date: Sun, 28 Sep 2025 11:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.462693
- Title: Tequila: Trapping-free Ternary Quantization for Large Language Models
- Title(参考訳): Tequila: 大規模言語モデルのためのトラッピングフリー3次量子化
- Authors: Hong Huang, Decheng Wu, Rui Cen, Guanghua Yu, Zonghang Li, Kai Liu, Jianchen Zhu, Peng Chen, Xue Liu, Dapeng Wu,
- Abstract要約: 大規模言語モデル(LLM)をエッジデバイスにデプロイするには,量子化技術が不可欠である。
テキーラ(Tequila)は、デッドゾーントラッピングされた重みを動的バイアスとして再資源化することで、トラップなし量子化最適化手法である。
SOTAベースラインよりも4%の精度向上を実現し、(1%の差で)完全精度のパフォーマンスと3.0倍の推論スピードアップとほぼ一致している。
- 参考スコア(独自算出の注目度): 15.581305342505615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization techniques are essential for the deployment of Large Language Models (LLMs) on edge devices. However, prevailing methods often rely on mixed-precision multiplication that lacks efficient hardware support, making it not feasible. Ternary weight quantization addresses this by constraining weights to {-1, 0, 1}, replacing expensive multiplications with hardware-efficient additions. However, such aggressive compression leads to significant accuracy degradation, even after costly quantization-aware training with massive data. We identify the core issue as deadzone trapping: a large number of weights are trapped at the deadzone boundary. This occurs because these weights receive only noisy, uninformative gradients, preventing stable escape from the deadzone and severely impeding model capacity and optimization. To address this issue, we propose Tequila, a trapping-free quantization optimization method that reactivates deadzone-trapped weights by repurposing them as dynamic biases. This allows the repurposed weights to provide a continuous signal in the forward pass and, critically, receive direct, meaningful gradient signals during backpropagation, thereby enhancing model capacity and optimization with nearly zero inference overhead. Extensive evaluations demonstrate that Tequila outperforms state-of-the-art (SOTA) ternary quantization methods across five benchmarks. Specifically, on the ARC benchmark, it achieves >4% accuracy gain over the SOTA baseline, nearly matching full-precision performance (within <1% gap) with a 3.0x inference speedup. Consequently, Tequila offers a highly practical and efficient implementation for the deployment of advanced LLMs in resource-constrained environments. The code is available at https://github.com/Tencent/AngelSlim.
- Abstract(参考訳): 大規模言語モデル(LLM)をエッジデバイスにデプロイするには,量子化技術が不可欠である。
しかし、一般的な手法は、ハードウェアの効率的なサポートに欠ける混合精度の乗算に依存することが多く、実現不可能である。
3次重み量子化は、重みを {-1, 0, 1} に制限し、高価な乗算をハードウェア効率の加算に置き換えることでこの問題に対処する。
しかし、このような攻撃的な圧縮は、大量のデータを用いた高価な量子化学習の後であっても、かなり精度が低下する。
核となる問題はデッドゾーントラップであり、多くの重みがデッドゾーン境界に閉じ込められている。
これは、これらの重みがノイズや非形式的な勾配のみを受け取り、デッドゾーンからの安定した脱出を防ぎ、モデルの容量と最適化を著しく阻害するためである。
この問題に対処するため,我々は,デッドゾーントラッピング重みを動的バイアスとして再資源化し,トラップフリーな量子化最適化手法であるTequilaを提案する。
これにより、再用途の重み付けは前方のパスで連続的な信号を提供し、重要なことは、バックプロパゲーション中に直接有意義な勾配信号を受け取り、モデルキャパシティと最適化をほとんど推論オーバーヘッドなく向上させることができる。
広範囲な評価により、テキーラは5つのベンチマークで最先端(SOTA)3次量子化法より優れていることが示されている。
特にARCベンチマークでは、SOTAベースラインよりも4%以上精度が向上し、完全な精度性能(1%の差)と3.0倍の推論スピードアップとほぼ一致している。
その結果、Tequilaはリソース制約のある環境に高度なLCMを配置するための、非常に実用的で効率的な実装を提供する。
コードはhttps://github.com/Tencent/AngelSlim.comで公開されている。
関連論文リスト
- LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning [50.89500210372827]
リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。
LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。
MMLUベンチマークでは,16ビットLORAを最大5.14%越えて,量子化モデルの性能を効果的に回復する。
論文 参考訳(メタデータ) (2025-05-24T14:47:28Z) - Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis [9.884521812433661]
Quaffは、大規模言語モデルのための量子化されたパラメータ効率の微調整フレームワークである。
軽量な操作を使用して、排他的な不変チャネルを抑える。
1.73倍のレイテンシ削減を実現し、30パーセントのメモリ節約を実現している。
論文 参考訳(メタデータ) (2025-05-20T07:19:36Z) - Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [21.0540879091664]
我々は、勾配推定のために連続量子化スケールを摂動する単純で効果的な方法である量子化ゼロ階最適化(QZO)を提案する。
QZOは4ビットLLMの合計メモリコストを18ドル以上削減でき、24GBのGPUでLlama-2-13Bを微調整できる。
論文 参考訳(メタデータ) (2025-05-19T17:55:15Z) - QuEST: Stable Training of LLMs with 1-Bit Weights and Activations [27.644652093888745]
QuESTはスパースまたは量子化された言語モデルをトレーニングするための新しい方法である。
我々は4ビットで最適性を示し、1ビットの重みとアクティベーションの低い安定収束を示す。
Llama型アーキテクチャの実験により、QuESTはハードウェアサポートされた全範囲にわたる安定したスケーリング法則を導出することが示された。
論文 参考訳(メタデータ) (2025-02-07T15:23:34Z) - Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs [16.596819845726625]
SignRoundは、符号付き勾配降下(SignSGD)を利用して、200ステップで丸め値とウェイトクリッピングを最適化する手法である。
2ビットから4ビットにわたって例外的な結果を提供すると同時に、チューニングコストを最小化し、追加の推論オーバーヘッドを回避する。
また、近年のモデルでは強力な一般化が示され、ほとんどのシナリオでほぼロスレスな4ビット量子化が達成されている。
論文 参考訳(メタデータ) (2023-09-11T14:58:23Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。