論文の概要: Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2505.11574v2
- Date: Fri, 26 Sep 2025 02:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 16:35:18.840364
- Title: Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning
- Title(参考訳): 量子化と推論 - 数学的推論における低ビットLCMの劣化の探索と緩和-
- Authors: Zhen Li, Yupeng Su, Songmiao Wang, Runming Yang, Congkai Xie, Aofan Liu, Ming Li, Jiannong Cao, Yuan Xie, Ngai Wong, Hongxia Yang,
- Abstract要約: 低ビット後の量子化は、より厳しい設定で69.81%の数学的推論を損なう。
デプロイクリティカルな2つの問題に,プロセスレベルの精度で対処する。
われわれの設定では、332のキュレートされたサンプルと1つのGPUで3~5分計算すると、完全な精度のベースラインに向かって4ビットの重み計算が引き起こされる。
- 参考スコア(独自算出の注目度): 45.5724300097508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-bit post-training quantization (PTQ) is a practical route to deploy reasoning-capable LLMs under tight memory and latency budgets, yet it can markedly impair mathematical reasoning (drops up to 69.81% in our harder settings). We address two deployment-critical questions with process-level precision: Where along a step-structured solution does degradation first arise? How to mitigate it while staying in the low-bit regime? Across widely used PTQ methods (AWQ, GPTQ, SmoothQuant), open-source model families (Qwen, LLaMA; 0.5--7B), and math reasoning benchmarks (GSM8K, MATH, AIME), we perform format-aligned chain-of-thought with step-aligned attribution and uncover two robust regularities: (i) PTQ disproportionately elevates method and execution errors relative to high-level conceptual mistakes; and (ii) failures emerge early, with the first vulnerable step flipping and cascading to the final answer. These regularities suggest a general intervention principle: restore local token-level margins exactly at the earliest failure frontier. We instantiate this principle as a lightweight measure$\rightarrow$locate$\rightarrow$restore loop that operates directly on the quantized model: detect the first faulty step, construct our "Silver Bullet" datasets, and apply small-scale supervised/preference tuning. In our settings, as few as 332 curated examples and 3--5 minutes of compute on a single GPU recover 4-bit weight math reasoning toward the full-precision baseline while preserving PTQ efficiency. Our framework is quantizer- and architecture-agnostic within the evaluated regimes, and turns low-bit degradation from a global accuracy problem into a local, reproducible process intervention.
- Abstract(参考訳): 低ビット後量子化(PTQ)は、厳密なメモリと遅延予算の下で推論可能なLCMをデプロイする実用的な方法であるが、数学的推論を著しく損なう可能性がある(我々の厳しい設定では69.81%まで低下する)。
私たちはプロセスレベルの正確さで2つのデプロイメントクリティカルな問題に対処します。
低ビット状態に留まりながら、それを緩和する方法?
広く使われているPTQ法(AWQ, GPTQ, SmoothQuant)、オープンソースモデルファミリ(Qwen, LLaMA; 0.5--7B)、および数学推論ベンチマーク(GSM8K, MATH, AIME)にまたがって、ステップ整列属性によるフォーマット整列連鎖を行い、2つの頑健な規則性を明らかにする。
一 PTQは、高レベルの概念上の誤りに対する方法及び実行エラーを不当に高めること。
(ii) 失敗は早い段階で発生し、最初の脆弱なステップがフリップして最終回答にカスケードする。
これらの規則は一般的な介入原則を示唆している: 早期の障害フロンティアにおいて、局所トークンレベルのマージンを正確に復元する。
私たちはこの原則を,量子化モデル上で直接動作する軽量な測度$\rightarrow$locate$\rightarrow$restoreループとしてインスタンス化します。
我々の設定では、PTQ効率を保ちながら、全精度のベースラインに向かって4ビットの重みを復元する。
我々のフレームワークは評価された体制の中で量化器とアーキテクチャに依存しないものであり、グローバルな精度問題から低ビット劣化を局所的に再現可能なプロセス介入に変換する。
関連論文リスト
- Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。
我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。
我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文 参考訳(メタデータ) (2025-05-08T13:26:19Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - Improving Quantization with Post-Training Model Expansion [0.35377121774178694]
ポストトレーニングモデル拡張は、量子化共設計空間内のモデル品質を改善するための実行可能な戦略である。
本研究では,事前学習された大規模言語モデル (LLM) のサイズを段階的に選択的に拡張し,エンドツーエンドの再学習を伴わずにモデル品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-03-21T19:56:59Z) - Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning [29.687113675756127]
大規模言語モデルは、MATHのような複雑な数学的推論ベンチマークにおいて大きな進歩を遂げた。
モデル量子化は、低い精度とビット幅の表現を用いることで、メモリ使用量と計算コストを削減する効果的な戦略として登場した。
論文 参考訳(メタデータ) (2025-01-06T14:23:02Z) - Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant [11.832907585157638]
量子化は、大規模および小規模言語モデルのコスト効率のよいデプロイのための有望なソリューションとして注目を集めている。
1Bから405Bパラメータにまたがる命令調整モデルの総合評価を行い、13のデータセットに対して4つの量子化手法を適用した。
論文 参考訳(メタデータ) (2024-09-17T10:31:37Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。