論文の概要: Doing More With Less: Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2604.25098v1
- Date: Tue, 28 Apr 2026 01:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.648522
- Title: Doing More With Less: Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling
- Title(参考訳): 少なからぬこと - テストタイムスケーリングにおけるLLMプルーニングの有効性の再検討
- Authors: Ocean Monjur, Shahriar Kabir Nahin, Anshuman Chhabra,
- Abstract要約: これまでの研究では、構造化プルーニング(層ブロックの集合全体を除去するメソッド)がTS推論性能を著しく低下させることが示された。
本研究では, ある余剰/減量重みのみを慎重に除去する手法が, 同様の制約を呈するかどうかを考察する。
意外なことに、我々の実験は、構造化プルーニングと比較して、非構造化プルーニングによりTS性能が向上することを示した。
- 参考スコア(独自算出の注目度): 9.094127664014627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While current Large Language Models (LLMs) exhibit remarkable reasoning capabilities through test-time compute scaling (TTS), their massive parameter counts and high inference costs have motivated the development of pruning methods that can reduce model size without sacrificing performance. However, specific to reasoning LLMs, prior work has shown that structured pruning (methods which removes entire set of layer blocks), significantly degrades TTS reasoning performance. In this work, we revisit this assumption and instead investigate whether unstructured pruning (methods that carefully remove only certain redundant/detrimental weights) exhibits similar limitations. Surprisingly, our extensive experiments across four reasoning benchmarks on two reasoning LLMs: s1.1-7B and Qwen3-8B, consistently show that unstructured pruning augments TTS performance compared to structured pruning, and at times can even outperform the unpruned full-weight LLMs. Furthermore, we also empirically study the impact of different layer-wise sparsity allocation strategies, which are an important parametric choice for instantiating unstructured pruning methods. These findings challenge the conventional notion that pruning always reduces TTS performance and in fact, suggest that carefully undertaken pruning can improve TTS effectiveness even further.
- Abstract(参考訳): 現在のLarge Language Models (LLMs) は、TTS(Test-time Compute Scaling) による顕著な推論能力を示しているが、その膨大なパラメータ数と高い推論コストは、性能を犠牲にすることなくモデルサイズを削減できるプルーニング手法の開発を動機付けている。
しかし、LLMの推論に特有な先行研究により、構造化プルーニング(層ブロックの集合全体を除去するメソッド)はTS推論性能を著しく低下させることが示された。
本研究では、この仮定を再検討し、非構造化プルーニング(特定の冗長な/破壊的な重みだけを慎重に除去する手法)が同様の制限を示すかどうかを検討する。
驚くべきことに、我々は2つの理由付けLDM(s1.1-7BとQwen3-8B)に関する4つの推論ベンチマークにまたがる広範な実験を行った。
さらに,非構造化プルーニング手法のインスタンス化において重要なパラメータ選択である,異なる層幅割当戦略の影響を実証的に検討した。
これらの知見は, プルーニングが常にTS性能を低下させるという従来の考え方に疑問を呈し, 実際, プルーニングを慎重に実施することで, TTSの有効性をさらに向上させることができることを示唆している。
関連論文リスト
- Gradually Compacting Large Language Models for Reasoning Like a Boiling Frog [72.4168434368873]
大きな言語モデル(LLM)は印象的な推論能力を示しているが、その相当なサイズは、しばしばかなりの計算資源を必要とする。
圧縮過程を細かな繰り返しに分割する段階的圧縮法を提案する。
この「沸騰するカエル」効果の反復的なアプローチは、急激な性能損失を伴わずに、モデルを段階的に圧縮することができる。
論文 参考訳(メタデータ) (2026-02-04T06:56:52Z) - A State-Transition Framework for Efficient LLM Reasoning [58.18141262230392]
ロングチェイン・オブ・ソート (Long Chain-of-Thought, CoT) 推論は、複雑な推論タスクにおいて、Large Language Models (LLM) のパフォーマンスを大幅に改善する。
既存の研究は通常、COT配列を圧縮することでLCMの推論効率を高める。
状態遷移過程としてLLMの推論過程をモデル化する効率的な推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T12:40:40Z) - Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency [3.6199690908942546]
自己一貫性(SC)は複数の推論チェーンを並列に生成し、多数決によって最終回答を選択する。
Slim-SCは、思考レベルでチェーン間の類似性を用いて冗長なチェーンを識別・除去するステップワイズプルーニング戦略である。
実験によると、Slim-SCはR1-Distillで、それぞれ最大45%と26%のレイテンシとKVC使用量を削減している。
論文 参考訳(メタデータ) (2025-09-17T14:00:51Z) - Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning [15.137717200618454]
Prune-on-LogicはLong-CoTを論理グラフに変換し、低ユーティリティ推論ステップを選択的にプルーするフレームワークである。
検証プルーニングはトークン使用率を低下させながら常に精度を向上するのに対し、推論や非識別プルーニングは性能を低下させる。
論文 参考訳(メタデータ) (2025-05-20T16:38:32Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [108.07030347318624]
より長い思考の連鎖(CoTs)によるスケーリングは、特定の領域におけるLarge Language Models(LLMs)の推論性能を損なう可能性があることを示す。
深層思考に異なる推論手法を採用するためのモデルを教えるための思考-最適スケーリング戦略を提案する。
我々のQwen2.5-32B-Instructに基づく自己改善モデルは、様々なベンチマークで他の蒸留ベースの32B o1-likeモデルより優れています。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - SlimGPT: Layer-wise Structured Pruning for Large Language Models [15.252798256418279]
Batched Greedy Pruning for rapid and near-optimal Pruning
インクリメンタルプルーニング比(Incrmental Pruning Ratio) - 非一様プルーニング戦略で、性能劣化を低減する。
LLaMAベンチマークの実験結果から,SlimGPTは他の手法よりも優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-12-24T02:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。