論文の概要: When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2504.02010v2
- Date: Thu, 02 Oct 2025 02:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:19.78366
- Title: When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models
- Title(参考訳): 推論が圧縮と出会う時-LLM圧縮が大規模推論モデルに及ぼす影響を理解する
- Authors: Nan Zhang, Eugene Kwek, Yusen Zhang, Ngoc-Hieu Nguyen, Prasenjit Mitra, Rui Zhang,
- Abstract要約: 本研究では,大推理モデルの推理能力が圧縮時にいかに損なわれるかを検討する。
我々は4つの推論データセット上で、定量化、蒸留、刈り取られたDeepSeek-R1モデルをベンチマークした。
全体として、動的量子化 2.51 ビット R1 が R1 に近い性能に達する。
- 参考スコア(独自算出の注目度): 18.37440002326957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compression methods, including quantization, distillation, and pruning, improve the computational efficiency of large reasoning models (LRMs). However, existing studies either fail to sufficiently compare all three compression methods on LRMs or lack in-depth interpretation analysis. In this paper, we investigate how the reasoning capabilities of LRMs are compromised during compression, through performance benchmarking and mechanistic interpretation. To uncover the effects of compression on reasoning performance, we benchmark quantized, distilled, and pruned DeepSeek-R1 models on four reasoning datasets (AIME 2024, FOLIO, Temporal Sequences, and MuSiQue). To precisely locate compression effects on model weights, we adapt difference of means and attribution patching techniques, focusing on the activation of every linear component in compressed LRMs, to interpret fine-grained causal relationships between weights and various reasoning capabilities. This fine-grained interpretation addresses a fundamental question of compression: which weights are the most important for reasoning? Overall, we find dynamically quantized 2.51-bit R1 reaches close-to-R1 performance. With empirical verification, we present three main findings that generalize across both Llama and Qwen: (1) Weight count has a greater impact on LRMs' knowledge memorization than reasoning, highlighting the risks of pruning and distillation; (2) The MLP up projection in the final layer of distilled LRMs is one of the most important components, offering a new perspective on locating critical weights - a fundamental problem in model compression; and (3) Current quantization methods overly compress the final-layer modules and MLP gate projections, so protecting just 2% of all weights that are excessively compressed can raise average accuracy by 6.57%, greatly surpassing the state-of-the-art.
- Abstract(参考訳): 量子化、蒸留、プルーニングを含む圧縮法は、大きな推論モデル(LRM)の計算効率を向上させる。
しかし、既存の研究では、LEMの3つの圧縮方法全てを十分に比較できないか、あるいは詳細な解釈分析が欠如している。
本稿では, LRMの推理能力が, 性能ベンチマークや機械的解釈を通じて, 圧縮時にいかに損なわれるかを検討する。
圧縮が推論性能に与える影響を明らかにするため,4つの推論データセット(AIME 2024, FOLIO, Temporal Sequences, MuSiQue)上で, 定量化, 蒸留, 精製したDeepSeek-R1モデルをベンチマークした。
モデル重みに対する圧縮効果を正確に把握するため, 圧縮LEMにおけるすべての線形成分の活性化に着目し, 重みと様々な推論能力の微粒な因果関係の解釈を行う。
このきめ細かい解釈は、圧縮の根本的な問題に対処する:どの重みが推論にとってもっとも重要であるか?
全体として、動的に量子化された2.51ビットR1がR1に近い性能に達する。
実験的な検証により, Llama と Qwen の双方で一般化された3つの主要な知見を提示する:(1) 重量は推理よりも LRM の知識記憶に大きく影響し, 蒸留・蒸留のリスクを強調している; (2) 蒸留 LRM の最終層における MLP の予測は最も重要な要素の一つであり, 重要な重みの配置に関する新たな視点を提供する; モデル圧縮における根本的な問題; 3) 最終層モジュールと MLP ゲート投影を過度に圧縮する電流量子化手法により, 過度に圧縮された全ての重みの 2% しか保護できないため, 平均精度を6.57% 向上させることができる。
関連論文リスト
- Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - SplitReason: Learning To Offload Reasoning [7.016347390223799]
大規模言語モデル(LLM)における推論は、単純な言語モデリングタスクよりもかなり長いトークン生成シーケンスを生成する傾向がある。
私たちはこれを、推論プロセスの最も困難な部分だけを、より大きく、より有能なモデルにオフロードすることで活用します。
このアプローチは、AIME24の推論精度を24%、28.3%改善し、それぞれ生成されたトークンの1.35%と5%をオフロードする。
論文 参考訳(メタデータ) (2025-04-23T03:00:02Z) - M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models [72.75501495786297]
本稿では,Mambaアーキテクチャ上に構築されたハイブリッド線形RNN推論モデルM1を紹介する。
実験結果から,M1は従来の線形RNNモデルよりも優れていただけでなく,最先端のDeepSeek R1蒸留推論モデルの性能とも一致していることがわかった。
論文 参考訳(メタデータ) (2025-04-14T17:38:25Z) - SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReason は軽量モデルを用いて LRM 推論を加速し、より単純な中間推論ステップを実行するシステムである。
1.5-2.5$times$ speedup over vanilla LRM inferenceを達成し、精度は1.0-9.9%向上した。
SpecReasonなしでの投機的復号化と比較すると、それらの組み合わせは19.4-44.2%のレイテンシ削減をもたらす。
論文 参考訳(メタデータ) (2025-04-10T16:05:19Z) - Revisiting Prompt Optimization with Large Reasoning Models-A Case Study on Event Extraction [8.88001387249786]
DeepSeek-R1やOpenAI o1のような大きな推論モデル(LRM)は、様々な推論タスクにおいて顕著な能力を示している。
中間的な思考を創造し、推論する強力な能力は、人間の指示を解釈するために、より広範な急進的な工学や最適化をもはや必要としないかもしれないという議論につながった。
本研究では,イベント抽出の構造化課題を事例スタディとして,このオープンな質問を体系的に研究することを目的とする。
論文 参考訳(メタデータ) (2025-04-10T00:53:59Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。
本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文 参考訳(メタデータ) (2024-10-28T14:45:01Z) - Mixture of Parrots: Experts improve memorization more than reasoning [72.445819694797]
専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。
専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
論文 参考訳(メタデータ) (2024-10-24T17:54:41Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。