論文の概要: STADE: Standard Deviation as a Pruning Metric
- arxiv url: http://arxiv.org/abs/2503.22451v1
- Date: Fri, 28 Mar 2025 14:03:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:28:37.309977
- Title: STADE: Standard Deviation as a Pruning Metric
- Title(参考訳): STADE: プルーニング指標としての標準偏差
- Authors: Diego Coello de Portugal Mecke, Haya Alyoussef, Ilia Koloiarov, Maximilian Stubbemann, Lars Schmidt-Thieme,
- Abstract要約: ワンダのような最先端のプルーニング手法は、再訓練せずにモデルを熟成し、プルーニングプロセスをより速く、より効率的にする。
プルーニング問題の理論的解析は、Wandaが最適プルーニング法である機械学習において一般的なシナリオを明らかにする。
Llama と Open Pre-trained Transformer (OPT) モデルの実験は、これらの理論的な結果を検証する。
- 参考スコア(独自算出の注目度): 4.995289882402786
- License:
- Abstract: Recently, Large Language Models (LLMs) have become very widespread and are used to solve a wide variety of tasks. To successfully handle these tasks, LLMs require longer training times and larger model sizes. This makes LLMs ideal candidates for pruning methods that reduce computational demands while maintaining performance. Previous methods require a retraining phase after pruning to maintain the original model's performance. However, state-of-the-art pruning methods, such as Wanda, prune the model without retraining, making the pruning process faster and more efficient. Building upon Wanda's work, this study provides a theoretical explanation of why the method is effective and leverages these insights to enhance the pruning process. Specifically, a theoretical analysis of the pruning problem reveals a common scenario in Machine Learning where Wanda is the optimal pruning method. Furthermore, this analysis is extended to cases where Wanda is no longer optimal, leading to the development of a new method, STADE, based on the standard deviation of the input. From a theoretical standpoint, STADE demonstrates better generality across different scenarios. Finally, extensive experiments on Llama and Open Pre-trained Transformers (OPT) models validate these theoretical findings, showing that depending on the training conditions, Wanda's optimal performance varies as predicted by the theoretical framework. These insights contribute to a more robust understanding of pruning strategies and their practical implications. Code is available at: https://github.com/Coello-dev/STADE/
- Abstract(参考訳): 近年,Large Language Models (LLM) が広く普及し,様々なタスクの解決に利用されている。
これらのタスクをうまく処理するには、LLMはより長いトレーニング時間とより大きなモデルサイズを必要とする。
これにより、LLMは性能を維持しながら計算要求を削減できるプルーニング手法の理想的な候補となる。
以前の手法では、元のモデルの性能を維持するために、プルーニング後に再トレーニングフェーズが必要になる。
しかしながら、Wandaのような最先端のプルーニング手法は、再訓練せずにモデルを熟成し、プルーニングプロセスをより速く、より効率的にする。
ワンダの研究に基づいて、この方法がなぜ有効かの理論的な説明を行い、これらの知見を活用して刈り取りプロセスを強化する。
具体的には、プルーニング問題の理論的解析により、Wandaが最適プルーニング法である機械学習において、一般的なシナリオが明らかになる。
さらに、この分析はWandaがもはや最適でない場合に拡張され、入力の標準偏差に基づく新しい方法STADEが開発される。
理論的な観点から、STADEは様々なシナリオにまたがるより良い一般化を示す。
最後に、Llama と Open Pre-trained Transformer (OPT) モデルに関する広範な実験により、これらの理論的な結果が検証され、Wanda の最適性能は、理論フレームワークによって予測されるように異なることが示されている。
これらの洞察は、より堅牢なプルーニング戦略とその実践的意味の理解に寄与する。
コードは、https://github.com/Coello-dev/STADE/で入手できる。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。
自己教師付き学習方式により,提案手法は性能と効率のバランスが良好である。特にPARは柔軟であり,複数のプルーニングバージョンを提供し,様々なプルーニングシナリオに対処する。
論文 参考訳(メタデータ) (2024-12-09T13:02:35Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - From Dense to Sparse: Contrastive Pruning for Better Pre-trained
Language Model Compression [32.35855458528584]
ContrAstive Pruning (CAP) は一般的なフレームワークとして設計されており、構造化プルーニングと非構造化プルーニングの両方と互換性がある。
CAPは、特に非常に高頻度のシナリオにおいて、一貫して大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-12-14T07:14:09Z) - Movement Pruning: Adaptive Sparsity by Fine-Tuning [115.91907953454034]
マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。
本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
論文 参考訳(メタデータ) (2020-05-15T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。