論文の概要: When Reasoning Meets Compression: Benchmarking Compressed Large Reasoning Models on Complex Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2504.02010v1
- Date: Wed, 02 Apr 2025 05:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-12 01:10:58.137342
- Title: When Reasoning Meets Compression: Benchmarking Compressed Large Reasoning Models on Complex Reasoning Tasks
- Title(参考訳): Reasoningが圧縮に出会ったとき: 複雑なReasoningタスクのベンチマークによる大きなReasoningモデル
- Authors: Nan Zhang, Yusen Zhang, Prasenjit Mitra, Rui Zhang,
- Abstract要約: 大規模言語モデルの圧縮(LLM)は、計算資源のコスト削減に有効なソリューションを提供する。
圧縮されたDeepSeek-R1モデルを4つの異なる推論データセットでベンチマークした。
パラメータカウントは記憶量よりも LRM の知識に大きく影響していることがわかった。
- 参考スコア(独自算出の注目度): 11.656636716718175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent open-source large reasoning models (LRMs) exhibit strong performance on complex reasoning tasks, but their large parameter count makes them prohibitively expensive for individuals. The compression of large language models (LLMs) offers an effective solution to reduce cost of computational resources. However, systematic studies on the performance of compressed LLMs in complex reasoning tasks, especially for LRMs, are lacking. Most works on quantization and pruning focus on preserving language modeling performance, while existing distillation works do not comprehensively benchmark student models based on reasoning difficulty or compression impact on knowledge and reasoning. In this paper, we benchmark compressed DeepSeek-R1 models on four different reasoning datasets (AIME 2024, FOLIO, Temporal Sequences of BIG-Bench Hard, and MuSiQue), ranging from mathematical to multihop reasoning, using quantization, distillation, and pruning methods. We benchmark 2.51-, 1.73-, and 1.58-bit R1 models that adopt dynamic quantization. We also benchmark distilled R1 models that are based on LLaMA or Qwen and run SparseGPT on them to obtain various sparsity levels. Studying the performance and behavior of compressed LRMs, we report their performance scores and test-time compute (number of tokens spent on each question). Notably, using MuSiQue, we find that parameter count has a much greater impact on LRMs' knowledge memorization than on their reasoning capability, which can inform the choice of compression techniques. Through our empirical analysis of test-time compute, we find that shorter model outputs generally achieve better performance than longer ones across several benchmarks for both R1 and its compressed variants, highlighting the need for more concise reasoning chains.
- Abstract(参考訳): 最近のオープンソース大推論モデル(LRM)は、複雑な推論タスクにおいて高い性能を示すが、その大きなパラメータ数は、個人にとって違法に高価である。
大規模言語モデル(LLM)の圧縮は、計算資源のコスト削減に有効なソリューションを提供する。
しかし、複雑な推論タスク、特にLRMにおける圧縮LDMの性能に関する体系的研究は欠落している。
量子化とプルーニングは言語モデリング性能の保存に重点を置いているのに対し、既存の蒸留は、推論の難しさや知識や推論に対する圧縮の影響に基づいて、学生モデルを包括的にベンチマークするわけではない。
本稿では,BIG-Bench Hardの時間系列(AIME 2024, FOLIO, BIG-Bench Hard, MuSiQue)を定量化, 蒸留, プルーニング法を用いて, 数理からマルチホップの推論まで, 4つの異なる推論データセット(AIME 2024, FOLIO, Temporal Sequences of BIG-Bench Hard, MuSiQue)のDeepSeek-R1モデルをベンチマークした。
動的量子化を用いた2.51-,1.73-,1.58-bit R1モデルのベンチマークを行った。
また, LLaMA や Qwen をベースとした蒸留R1モデルをベンチマークし, SparseGPT を実行し, 種々のスパシティレベルを得る。
圧縮LEMの性能と挙動について検討し,各質問に費やしたトークン数) と性能スコアを報告する。
特に, MuSiQue を用いた場合, パラメータ数は推理能力よりも LRM の知識記憶に大きく影響し, 圧縮技術の選択に影響を及ぼすことがわかった。
テスト時間計算の実証的な解析により、R1と圧縮された変種の両方のベンチマークにおいて、より短いモデル出力の方が、より簡潔な推論チェーンの必要性を強調しながら、より長いモデル出力よりもパフォーマンスが向上していることが判明した。
関連論文リスト
- SplitReason: Learning To Offload Reasoning [7.016347390223799]
大規模言語モデル(LLM)における推論は、単純な言語モデリングタスクよりもかなり長いトークン生成シーケンスを生成する傾向がある。
私たちはこれを、推論プロセスの最も困難な部分だけを、より大きく、より有能なモデルにオフロードすることで活用します。
このアプローチは、AIME24の推論精度を24%、28.3%改善し、それぞれ生成されたトークンの1.35%と5%をオフロードする。
論文 参考訳(メタデータ) (2025-04-23T03:00:02Z) - M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models [72.75501495786297]
本稿では,Mambaアーキテクチャ上に構築されたハイブリッド線形RNN推論モデルM1を紹介する。
実験結果から,M1は従来の線形RNNモデルよりも優れていただけでなく,最先端のDeepSeek R1蒸留推論モデルの性能とも一致していることがわかった。
論文 参考訳(メタデータ) (2025-04-14T17:38:25Z) - SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReason は軽量モデルを用いて LRM 推論を加速し、より単純な中間推論ステップを実行するシステムである。
1.5-2.5$times$ speedup over vanilla LRM inferenceを達成し、精度は1.0-9.9%向上した。
SpecReasonなしでの投機的復号化と比較すると、それらの組み合わせは19.4-44.2%のレイテンシ削減をもたらす。
論文 参考訳(メタデータ) (2025-04-10T16:05:19Z) - Revisiting Prompt Optimization with Large Reasoning Models-A Case Study on Event Extraction [8.88001387249786]
DeepSeek-R1やOpenAI o1のような大きな推論モデル(LRM)は、様々な推論タスクにおいて顕著な能力を示している。
中間的な思考を創造し、推論する強力な能力は、人間の指示を解釈するために、より広範な急進的な工学や最適化をもはや必要としないかもしれないという議論につながった。
本研究では,イベント抽出の構造化課題を事例スタディとして,このオープンな質問を体系的に研究することを目的とする。
論文 参考訳(メタデータ) (2025-04-10T00:53:59Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。
本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文 参考訳(メタデータ) (2024-10-28T14:45:01Z) - Mixture of Parrots: Experts improve memorization more than reasoning [72.445819694797]
専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。
専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
論文 参考訳(メタデータ) (2024-10-24T17:54:41Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。