論文の概要: Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2501.03035v4
- Date: Mon, 24 Feb 2025 14:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 16:03:02.974066
- Title: Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning
- Title(参考訳): 量子化と推論 - 数学的推論のためのLLM低ビット量子化分解の探索
- Authors: Zhen Li, Yupeng Su, Runming Yang, Congkai Xie, Zheng Wang, Zhongwei Xie, Ngai Wong, Hongxia Yang,
- Abstract要約: 大規模言語モデルは、MATHのような複雑な数学的推論ベンチマークにおいて大きな進歩を遂げた。
モデル量子化は、低い精度とビット幅の表現を用いることで、メモリ使用量と計算コストを削減する効果的な戦略として登場した。
- 参考スコア(独自算出の注目度): 29.687113675756127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have achieved significant advancements in complex mathematical reasoning benchmarks, such as MATH. However, their substantial computational requirements present challenges for practical deployment. Model quantization has emerged as an effective strategy to reduce memory usage and computational costs by employing lower precision and bit-width representations. In this study, we systematically evaluate the impact of quantization on mathematical reasoning tasks. Our results demonstrate that aggressive quantization methods like AWQ and GPTQ introduce up to 32.39% accuracy degradation (average 11.31%) on Llama-3 models, particularly in numerical computation and reasoning planning. To address this, we introduce a multidimensional evaluation framework combining qualitative capability analysis and quantitative error assessment. We further develop targeted recovery strategies, showing that fine-tuning quantized models on only 545 task-specific examples for 3 minutes on 4 GPUs effectively restores reasoning capabilities to near full-precision levels. Additionally, our error assessment pipeline achieves 98.9% accuracy in diagnosing and localizing errors across 3,366 failure cases, providing actionable insights for mitigating quantization-induced degradation.
- Abstract(参考訳): 大規模言語モデルは、MATHのような複雑な数学的推論ベンチマークにおいて大きな進歩を遂げた。
しかし、その相当な計算要求は、実際の展開の課題を提示する。
モデル量子化は、低い精度とビット幅の表現を用いることで、メモリ使用量と計算コストを削減する効果的な戦略として登場した。
本研究では,量子化が数学的推論タスクに与える影響を系統的に評価する。
AWQやGPTQのようなアグレッシブ量子化手法は,Llama-3モデルにおいて,特に数値計算や推論計画において,32.39%の精度劣化(平均11.31%)をもたらすことを示した。
そこで本稿では,定性的能力分析と量的誤り評価を組み合わせた多次元評価フレームワークを提案する。
さらに,4つのGPU上での3分間の545タスク固有例の微調整による量子化モデルにより,推論能力をほぼ完全精度のレベルまで効果的に復元できることを示す。
さらに,3,366件の障害事例のエラーの診断とローカライズにおいて,エラー評価パイプラインは98.9%の精度を実現し,量子化による劣化を緩和するための実用的な洞察を提供する。
関連論文リスト
- Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - Improving Quantization with Post-Training Model Expansion [0.35377121774178694]
ポストトレーニングモデル拡張は、量子化共設計空間内のモデル品質を改善するための実行可能な戦略である。
本研究では,事前学習された大規模言語モデル (LLM) のサイズを段階的に選択的に拡張し,エンドツーエンドの再学習を伴わずにモデル品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-03-21T19:56:59Z) - Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。
本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。
本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文 参考訳(メタデータ) (2025-03-03T15:20:41Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview [4.166341398835636]
本稿では,モデルサイズ成長の必要性と影響を論じ,性能のメリットと計算課題,環境配慮について考察する。
ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の両方を含む、さまざまな量子化手法を探求する。
これらの手法が、アウトレーヤや重み付け、アクティベーション量子化といった問題にどのように対処するかを検討し、最終的には、より持続可能な大規模モデルのデプロイに寄与する。
論文 参考訳(メタデータ) (2024-09-18T02:35:00Z) - Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant [11.832907585157638]
量子化は、大規模および小規模言語モデルのコスト効率のよいデプロイのための有望なソリューションとして注目を集めている。
1Bから405Bパラメータにまたがる命令調整モデルの総合評価を行い、13のデータセットに対して4つの量子化手法を適用した。
論文 参考訳(メタデータ) (2024-09-17T10:31:37Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [17.43650511873449]
大規模言語モデル(LLM)は、優れた性能と堅牢な推論能力を示すが、その拡張サイズは、相当なリソース消費のために、デプロイメントを複雑にし、環境上の懸念を増す。
我々は量子化LDMの性能を高める革新的な手法を開発した。
我々の手法は、様々な量子化シナリオをまたいだ最先端の結果を一貫して提供し、量子化プロセスに関する深い理論的洞察を提供し、広く応用するための量子化モデルのポテンシャルを解明する。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Effect of Weight Quantization on Learning Models by Typical Case
Analysis [6.9060054915724]
最近のデータ分析スケールの急増は、計算リソースの要求を大幅に増加させた。
量子化は、限られた計算資源を持つデバイスに大規模なモデルをデプロイするのに不可欠である。
論文 参考訳(メタデータ) (2024-01-30T18:58:46Z) - Efficient Neural PDE-Solvers using Quantization Aware Training [71.0934372968972]
量子化は、性能を維持しながら推論の計算コストを下げることができることを示す。
4つの標準PDEデータセットと3つのネットワークアーキテクチャの結果、量子化対応のトレーニングは、設定と3桁のFLOPで機能することがわかった。
論文 参考訳(メタデータ) (2023-08-14T09:21:19Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - End-to-end resource analysis for quantum interior point methods and portfolio optimization [63.4863637315163]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。
アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文 参考訳(メタデータ) (2022-11-22T18:54:48Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - A Survey of Quantization Methods for Efficient Neural Network Inference [75.55159744950859]
量子化は、必要なビット数を最小限に抑えるために、固定された離散数の集合に連続実数値を分散する問題である。
近年、コンピュータビジョン、自然言語処理、関連分野でのニューラルネットワークモデルの顕著な性能のために最前線に達しています。
浮動小数点表現から4ビット以下の低精度固定整数値への移行は、メモリフットプリントとレイテンシを16倍削減する可能性を秘めている。
論文 参考訳(メタデータ) (2021-03-25T06:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。