Fugu-MT 論文翻訳(概要): InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models

論文の概要: InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models

arxiv url: http://arxiv.org/abs/2505.11574v1
Date: Fri, 16 May 2025 12:11:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.715401
Title: InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models
Title（参考訳）: InfiJanice:大規模言語モデルにおける量子化誘起数学劣化のための共同解析とその場補正エンジン
Authors: Zhen Li, Yupeng Su, Songmiao Wang, Runming Yang, Congkai Xie, Aofan Liu, Ming Li, Jiannong Cao, Yuan Xie, Ngai Wong, Hongxia Yang,
Abstract要約: LLM(Large Language Models)は、GSM8K、MATH、AIMEといった複雑な推論ベンチマークにおいて、優れたパフォーマンスを示している。モデル量子化は、メモリフットプリントと推論レイテンシを低減するための有望なアプローチとして登場した。量子化は、数学的推論の精度を最大69.81%低下させることができることを示す。
参考スコア（独自算出の注目度）: 39.257022875813284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated impressive performance on complex reasoning benchmarks such as GSM8K, MATH, and AIME. However, the substantial computational demands of these tasks pose significant challenges for real-world deployment. Model quantization has emerged as a promising approach to reduce memory footprint and inference latency by representing weights and activations with lower bit-widths. In this work, we conduct a comprehensive study of mainstream quantization methods(e.g., AWQ, GPTQ, SmoothQuant) on the most popular open-sourced models (e.g., Qwen2.5, LLaMA3 series), and reveal that quantization can degrade mathematical reasoning accuracy by up to 69.81%. To better understand this degradation, we develop an automated assignment and judgment pipeline that qualitatively categorizes failures into four error types and quantitatively identifies the most impacted reasoning capabilities. Building on these findings, we employ an automated data-curation pipeline to construct a compact "Silver Bullet" datasets. Training a quantized model on as few as 332 carefully selected examples for just 3-5 minutes on a single GPU is enough to restore its reasoning accuracy to match that of the full-precision baseline.
Abstract（参考訳）: LLM(Large Language Models)は、GSM8K、MATH、AIMEといった複雑な推論ベンチマークにおいて、優れたパフォーマンスを示している。しかし、これらのタスクのかなりの計算要求は、現実世界の展開に重大な課題をもたらす。モデル量子化は、ビット幅の低い重みとアクティベーションを表現することによって、メモリフットプリントと推論レイテンシを低減するための有望なアプローチとして登場した。本研究では、最もポピュラーなオープンソースモデル(例えば、Qwen2.5、LLaMA3級数)上で、主流量子化手法(例えば、AWQ、GPTQ、SmoothQuant)の包括的な研究を行い、量子化が最大69.81%まで数学的推論精度を低下させることができることを示した。この劣化をよりよく理解するために、障害を4つのエラータイプに定性的に分類し、最も影響の大きい推論能力を定量的に識別する自動割当てと判断パイプラインを開発する。これらの結果に基づいて、我々は、コンパクトな"Silver Bullet"データセットを構築するために、自動データキュレーションパイプラインを使用する。 1つのGPU上でわずか3～5分間、慎重に選択された332個のサンプルで量子化されたモデルをトレーニングすることは、その推論精度を完全精度のベースラインと一致させるのに十分である。

関連論文リスト

Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文参考訳（メタデータ） (2025-04-07T08:22:45Z)
Improving Quantization with Post-Training Model Expansion [0.35377121774178694]
ポストトレーニングモデル拡張は、量子化共設計空間内のモデル品質を改善するための実行可能な戦略である。本研究では,事前学習された大規模言語モデル (LLM) のサイズを段階的に選択的に拡張し,エンドツーエンドの再学習を伴わずにモデル品質を向上させることができることを示す。
論文参考訳（メタデータ） (2025-03-21T19:56:59Z)
Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning [29.687113675756127]
大規模言語モデルは、MATHのような複雑な数学的推論ベンチマークにおいて大きな進歩を遂げた。モデル量子化は、低い精度とビット幅の表現を用いることで、メモリ使用量と計算コストを削減する効果的な戦略として登場した。
論文参考訳（メタデータ） (2025-01-06T14:23:02Z)
Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant [11.832907585157638]
量子化は、大規模および小規模言語モデルのコスト効率のよいデプロイのための有望なソリューションとして注目を集めている。 1Bから405Bパラメータにまたがる命令調整モデルの総合評価を行い、13のデータセットに対して4つの量子化手法を適用した。
論文参考訳（メタデータ） (2024-09-17T10:31:37Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。 MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文参考訳（メタデータ） (2023-03-12T21:01:54Z)
Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文参考訳（メタデータ） (2021-03-29T01:33:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。