Fugu-MT 論文翻訳(概要): Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

論文の概要: Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

arxiv url: http://arxiv.org/abs/2504.04823v1
Date: Mon, 07 Apr 2025 08:22:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-15 21:00:09.913662
Title: Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models
Title（参考訳）: 量子化ハルト推論 : 量子化推論モデルに関する実証的研究
Authors: Ruikang Liu, Yuxuan Sun, Manyi Zhang, Haoli Bai, Xianzhi Yu, Tiezheng Yu, Chun Yuan, Lu Hou,
Abstract要約: 我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
参考スコア（独自算出の注目度）: 48.98109982725689
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in reasoning language models have demonstrated remarkable performance in complex tasks, but their extended chain-of-thought reasoning process increases inference overhead. While quantization has been widely adopted to reduce the inference cost of large language models, its impact on reasoning models remains understudied. In this study, we conduct the first systematic study on quantized reasoning models, evaluating the open-sourced DeepSeek-R1-Distilled Qwen and LLaMA families ranging from 1.5B to 70B parameters, and QwQ-32B. Our investigation covers weight, KV cache, and activation quantization using state-of-the-art algorithms at varying bit-widths, with extensive evaluation across mathematical (AIME, MATH-500), scientific (GPQA), and programming (LiveCodeBench) reasoning benchmarks. Our findings reveal that while lossless quantization can be achieved with W8A8 or W4A16 quantization, lower bit-widths introduce significant accuracy risks. We further identify model size, model origin, and task difficulty as critical determinants of performance. Contrary to expectations, quantized models do not exhibit increased output lengths. In addition, strategically scaling the model sizes or reasoning steps can effectively enhance the performance. All quantized models and codes will be open-sourced in https://github.com/ruikangliu/Quantized-Reasoning-Models.
Abstract（参考訳）: 推論言語モデルの最近の進歩は、複雑なタスクにおいて顕著な性能を示したが、その拡張された連鎖推論プロセスは推論オーバーヘッドを増大させた。量子化は大規模言語モデルの推論コストを削減するために広く採用されているが、推論モデルへの影響はいまだ検討されていない。本研究では,DeepSeek-R1-Distilled Qwen と LLaMA をオープンソースとして,1.5B から 70B のパラメータと QwQ-32B を比較検討した。本研究は,様々なビット幅の最先端アルゴリズムを用いた重み,KVキャッシュ,アクティベーション量子化について,数学的(AIME, MATH-500),科学的(GPQA),プログラミング的(LiveCodeBench)推論ベンチマーク(LiveCodeBench)を用いて検討した。その結果、W8A8またはW4A16量子化ではロスレス量子化が達成できるが、低ビット幅では大きな精度のリスクが生じることがわかった。さらに、モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。期待とは対照的に、量子化モデルは出力長の増大を示さない。さらに、モデルのサイズや推論ステップを戦略的にスケーリングすることで、パフォーマンスを効果的に向上させることができる。すべての量子化モデルとコードはhttps://github.com/ruikangliu/Quantized-Reasoning-Modelsでオープンソース化される。

関連論文リスト

InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models [39.257022875813284]
LLM(Large Language Models)は、GSM8K、MATH、AIMEといった複雑な推論ベンチマークにおいて、優れたパフォーマンスを示している。モデル量子化は、メモリフットプリントと推論レイテンシを低減するための有望なアプローチとして登場した。量子化は、数学的推論の精度を最大69.81%低下させることができることを示す。
論文参考訳（メタデータ） (2025-05-16T12:11:40Z)
Scaling Reasoning can Improve Factuality in Large Language Models [7.184302333801519]
複雑なオープンドメイン質問応答(QA)シナリオにおいて,大規模言語モデル(LLM)の推論を徹底的に検討する。推論トレースを豊かにするために、我々は知識グラフからの事実情報を、推論トレースへの経路の形で導入する。本研究は,1回の動作において,より小さな推論モデルにより,従来の命令調整モデルと比較して,実際の精度が顕著に向上することが示唆された。
論文参考訳（メタデータ） (2025-05-16T11:39:33Z)
Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
Scaling Laws for Mixed quantization in Large Language Models [10.912306313183972]
大規模言語モデル(LLM)の学習後の量子化は、これらのモデルで推論を実行する際の計算量の削減に有効であることが証明されている。本研究では,低精度量子化のための特定の精度やパープレキシティターゲットを目指している場合,LLMを大規模化する際に,高い精度の数値や計算がいくつ必要か,という簡単な問題に焦点をあてる。
論文参考訳（メタデータ） (2024-10-09T09:45:01Z)
Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview [4.166341398835636]
本稿では,モデルサイズ成長の必要性と影響を論じ,性能のメリットと計算課題,環境配慮について考察する。ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の両方を含む、さまざまな量子化手法を探求する。これらの手法が、アウトレーヤや重み付け、アクティベーション量子化といった問題にどのように対処するかを検討し、最終的には、より持続可能な大規模モデルのデプロイに寄与する。
論文参考訳（メタデータ） (2024-09-18T02:35:00Z)
Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant [11.832907585157638]
量子化は、大規模および小規模言語モデルのコスト効率のよいデプロイのための有望なソリューションとして注目を集めている。 1Bから405Bパラメータにまたがる命令調整モデルの総合評価を行い、13のデータセットに対して4つの量子化手法を適用した。
論文参考訳（メタデータ） (2024-09-17T10:31:37Z)
Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models [0.0]
世界中のコネクテッドデバイスの数の増加は、計算能力の低いローカルデバイスに容易に展開できる圧縮モデルを保証する。画像分類,オブジェクト検出,言語モデル,生成モデルに基づく問題文に使用される一般的なディープラーニングモデルに対して,量子化とプルーニングの両方を実装した。
論文参考訳（メタデータ） (2024-07-22T14:20:53Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Quantifying the Capabilities of LLMs across Scale and Precision [12.879551933541345]
本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
論文参考訳（メタデータ） (2024-05-06T03:42:34Z)
Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文参考訳（メタデータ） (2024-02-13T17:18:56Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文参考訳（メタデータ） (2023-07-16T15:11:01Z)
Once Quantization-Aware Training: High Performance Extremely Low-bit Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文参考訳（メタデータ） (2020-10-09T03:52:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。