論文の概要: Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models
- arxiv url: http://arxiv.org/abs/2504.04823v1
- Date: Mon, 07 Apr 2025 08:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:59.387575
- Title: Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models
- Title(参考訳): 量子化ハルト推論 : 量子化推論モデルに関する実証的研究
- Authors: Ruikang Liu, Yuxuan Sun, Manyi Zhang, Haoli Bai, Xianzhi Yu, Tiezheng Yu, Chun Yuan, Lu Hou,
- Abstract要約: 我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
- 参考スコア(独自算出の注目度): 48.98109982725689
- License:
- Abstract: Recent advancements in reasoning language models have demonstrated remarkable performance in complex tasks, but their extended chain-of-thought reasoning process increases inference overhead. While quantization has been widely adopted to reduce the inference cost of large language models, its impact on reasoning models remains understudied. In this study, we conduct the first systematic study on quantized reasoning models, evaluating the open-sourced DeepSeek-R1-Distilled Qwen and LLaMA families ranging from 1.5B to 70B parameters, and QwQ-32B. Our investigation covers weight, KV cache, and activation quantization using state-of-the-art algorithms at varying bit-widths, with extensive evaluation across mathematical (AIME, MATH-500), scientific (GPQA), and programming (LiveCodeBench) reasoning benchmarks. Our findings reveal that while lossless quantization can be achieved with W8A8 or W4A16 quantization, lower bit-widths introduce significant accuracy risks. We further identify model size, model origin, and task difficulty as critical determinants of performance. Contrary to expectations, quantized models do not exhibit increased output lengths. In addition, strategically scaling the model sizes or reasoning steps can effectively enhance the performance. All quantized models and codes will be open-sourced in https://github.com/ruikangliu/Quantized-Reasoning-Models.
- Abstract(参考訳): 推論言語モデルの最近の進歩は、複雑なタスクにおいて顕著な性能を示したが、その拡張された連鎖推論プロセスは推論オーバーヘッドを増大させた。
量子化は大規模言語モデルの推論コストを削減するために広く採用されているが、推論モデルへの影響はいまだ検討されていない。
本研究では,DeepSeek-R1-Distilled Qwen と LLaMA をオープンソースとして,1.5B から 70B のパラメータと QwQ-32B を比較検討した。
本研究は,様々なビット幅の最先端アルゴリズムを用いた重み,KVキャッシュ,アクティベーション量子化について,数学的(AIME, MATH-500),科学的(GPQA),プログラミング的(LiveCodeBench)推論ベンチマーク(LiveCodeBench)を用いて検討した。
その結果、W8A8またはW4A16量子化ではロスレス量子化が達成できるが、低ビット幅では大きな精度のリスクが生じることがわかった。
さらに、モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
期待とは対照的に、量子化モデルは出力長の増大を示さない。
さらに、モデルのサイズや推論ステップを戦略的にスケーリングすることで、パフォーマンスを効果的に向上させることができる。
すべての量子化モデルとコードはhttps://github.com/ruikangliu/Quantized-Reasoning-Modelsでオープンソース化される。
関連論文リスト
- Scaling Laws for Mixed quantization in Large Language Models [10.912306313183972]
大規模言語モデル(LLM)の学習後の量子化は、これらのモデルで推論を実行する際の計算量の削減に有効であることが証明されている。
本研究では,低精度量子化のための特定の精度やパープレキシティターゲットを目指している場合,LLMを大規模化する際に,高い精度の数値や計算がいくつ必要か,という簡単な問題に焦点をあてる。
論文 参考訳(メタデータ) (2024-10-09T09:45:01Z) - Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview [4.166341398835636]
本稿では,モデルサイズ成長の必要性と影響を論じ,性能のメリットと計算課題,環境配慮について考察する。
ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の両方を含む、さまざまな量子化手法を探求する。
これらの手法が、アウトレーヤや重み付け、アクティベーション量子化といった問題にどのように対処するかを検討し、最終的には、より持続可能な大規模モデルのデプロイに寄与する。
論文 参考訳(メタデータ) (2024-09-18T02:35:00Z) - Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models [0.0]
世界中のコネクテッドデバイスの数の増加は、計算能力の低いローカルデバイスに容易に展開できる圧縮モデルを保証する。
画像分類,オブジェクト検出,言語モデル,生成モデルに基づく問題文に使用される一般的なディープラーニングモデルに対して,量子化とプルーニングの両方を実装した。
論文 参考訳(メタデータ) (2024-07-22T14:20:53Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Quantifying the Capabilities of LLMs across Scale and Precision [12.879551933541345]
本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
論文 参考訳(メタデータ) (2024-05-06T03:42:34Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - ZeroQuant-V2: Exploring Post-training Quantization in LLMs from
Comprehensive Study to Low Rank Compensation [24.34969722921442]
学習後量子化(PTQ)は、大規模言語モデル(LLM)におけるメモリ消費と計算コストを緩和する有望な手法として登場した。
我々は、PTQが重量のみ、活性化のみ、および重量と活性化の量子化に与える影響を調査し、これらの要因を包括的に分析する。
モデルサイズが最小限に抑えられたモデル品質回復を実現するために,Loll-Rank Compensation (LoRC) という最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T01:27:15Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。