論文の概要: InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11574v1
- Date: Fri, 16 May 2025 12:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.715401
- Title: InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models
- Title(参考訳): InfiJanice:大規模言語モデルにおける量子化誘起数学劣化のための共同解析とその場補正エンジン
- Authors: Zhen Li, Yupeng Su, Songmiao Wang, Runming Yang, Congkai Xie, Aofan Liu, Ming Li, Jiannong Cao, Yuan Xie, Ngai Wong, Hongxia Yang,
- Abstract要約: LLM(Large Language Models)は、GSM8K、MATH、AIMEといった複雑な推論ベンチマークにおいて、優れたパフォーマンスを示している。
モデル量子化は、メモリフットプリントと推論レイテンシを低減するための有望なアプローチとして登場した。
量子化は、数学的推論の精度を最大69.81%低下させることができることを示す。
- 参考スコア(独自算出の注目度): 39.257022875813284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive performance on complex reasoning benchmarks such as GSM8K, MATH, and AIME. However, the substantial computational demands of these tasks pose significant challenges for real-world deployment. Model quantization has emerged as a promising approach to reduce memory footprint and inference latency by representing weights and activations with lower bit-widths. In this work, we conduct a comprehensive study of mainstream quantization methods(e.g., AWQ, GPTQ, SmoothQuant) on the most popular open-sourced models (e.g., Qwen2.5, LLaMA3 series), and reveal that quantization can degrade mathematical reasoning accuracy by up to 69.81%. To better understand this degradation, we develop an automated assignment and judgment pipeline that qualitatively categorizes failures into four error types and quantitatively identifies the most impacted reasoning capabilities. Building on these findings, we employ an automated data-curation pipeline to construct a compact "Silver Bullet" datasets. Training a quantized model on as few as 332 carefully selected examples for just 3-5 minutes on a single GPU is enough to restore its reasoning accuracy to match that of the full-precision baseline.
- Abstract(参考訳): LLM(Large Language Models)は、GSM8K、MATH、AIMEといった複雑な推論ベンチマークにおいて、優れたパフォーマンスを示している。
しかし、これらのタスクのかなりの計算要求は、現実世界の展開に重大な課題をもたらす。
モデル量子化は、ビット幅の低い重みとアクティベーションを表現することによって、メモリフットプリントと推論レイテンシを低減するための有望なアプローチとして登場した。
本研究では、最もポピュラーなオープンソースモデル(例えば、Qwen2.5、LLaMA3級数)上で、主流量子化手法(例えば、AWQ、GPTQ、SmoothQuant)の包括的な研究を行い、量子化が最大69.81%まで数学的推論精度を低下させることができることを示した。
この劣化をよりよく理解するために、障害を4つのエラータイプに定性的に分類し、最も影響の大きい推論能力を定量的に識別する自動割当てと判断パイプラインを開発する。
これらの結果に基づいて、我々は、コンパクトな"Silver Bullet"データセットを構築するために、自動データキュレーションパイプラインを使用する。
1つのGPU上でわずか3~5分間、慎重に選択された332個のサンプルで量子化されたモデルをトレーニングすることは、その推論精度を完全精度のベースラインと一致させるのに十分である。
関連論文リスト
- Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning [29.687113675756127]
大規模言語モデルは、MATHのような複雑な数学的推論ベンチマークにおいて大きな進歩を遂げた。
モデル量子化は、低い精度とビット幅の表現を用いることで、メモリ使用量と計算コストを削減する効果的な戦略として登場した。
論文 参考訳(メタデータ) (2025-01-06T14:23:02Z) - Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant [11.832907585157638]
量子化は、大規模および小規模言語モデルのコスト効率のよいデプロイのための有望なソリューションとして注目を集めている。
1Bから405Bパラメータにまたがる命令調整モデルの総合評価を行い、13のデータセットに対して4つの量子化手法を適用した。
論文 参考訳(メタデータ) (2024-09-17T10:31:37Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。