論文の概要: STADE: Standard Deviation as a Pruning Metric
- arxiv url: http://arxiv.org/abs/2503.22451v1
- Date: Fri, 28 Mar 2025 14:03:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.716754
- Title: STADE: Standard Deviation as a Pruning Metric
- Title(参考訳): STADE: プルーニング指標としての標準偏差
- Authors: Diego Coello de Portugal Mecke, Haya Alyoussef, Ilia Koloiarov, Maximilian Stubbemann, Lars Schmidt-Thieme,
- Abstract要約: ワンダのような最先端のプルーニング手法は、再訓練せずにモデルを熟成し、プルーニングプロセスをより速く、より効率的にする。
プルーニング問題の理論的解析は、Wandaが最適プルーニング法である機械学習において一般的なシナリオを明らかにする。
Llama と Open Pre-trained Transformer (OPT) モデルの実験は、これらの理論的な結果を検証する。
- 参考スコア(独自算出の注目度): 4.995289882402786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) have become very widespread and are used to solve a wide variety of tasks. To successfully handle these tasks, LLMs require longer training times and larger model sizes. This makes LLMs ideal candidates for pruning methods that reduce computational demands while maintaining performance. Previous methods require a retraining phase after pruning to maintain the original model's performance. However, state-of-the-art pruning methods, such as Wanda, prune the model without retraining, making the pruning process faster and more efficient. Building upon Wanda's work, this study provides a theoretical explanation of why the method is effective and leverages these insights to enhance the pruning process. Specifically, a theoretical analysis of the pruning problem reveals a common scenario in Machine Learning where Wanda is the optimal pruning method. Furthermore, this analysis is extended to cases where Wanda is no longer optimal, leading to the development of a new method, STADE, based on the standard deviation of the input. From a theoretical standpoint, STADE demonstrates better generality across different scenarios. Finally, extensive experiments on Llama and Open Pre-trained Transformers (OPT) models validate these theoretical findings, showing that depending on the training conditions, Wanda's optimal performance varies as predicted by the theoretical framework. These insights contribute to a more robust understanding of pruning strategies and their practical implications. Code is available at: https://github.com/Coello-dev/STADE/
- Abstract(参考訳): 近年,Large Language Models (LLM) が広く普及し,様々なタスクの解決に利用されている。
これらのタスクをうまく処理するには、LLMはより長いトレーニング時間とより大きなモデルサイズを必要とする。
これにより、LLMは性能を維持しながら計算要求を削減できるプルーニング手法の理想的な候補となる。
以前の手法では、元のモデルの性能を維持するために、プルーニング後に再トレーニングフェーズが必要になる。
しかしながら、Wandaのような最先端のプルーニング手法は、再訓練せずにモデルを熟成し、プルーニングプロセスをより速く、より効率的にする。
ワンダの研究に基づいて、この方法がなぜ有効かの理論的な説明を行い、これらの知見を活用して刈り取りプロセスを強化する。
具体的には、プルーニング問題の理論的解析により、Wandaが最適プルーニング法である機械学習において、一般的なシナリオが明らかになる。
さらに、この分析はWandaがもはや最適でない場合に拡張され、入力の標準偏差に基づく新しい方法STADEが開発される。
理論的な観点から、STADEは様々なシナリオにまたがるより良い一般化を示す。
最後に、Llama と Open Pre-trained Transformer (OPT) モデルに関する広範な実験により、これらの理論的な結果が検証され、Wanda の最適性能は、理論フレームワークによって予測されるように異なることが示されている。
これらの洞察は、より堅牢なプルーニング戦略とその実践的意味の理解に寄与する。
コードは、https://github.com/Coello-dev/STADE/で入手できる。
関連論文リスト
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。
自己教師付き学習方式により,提案手法は性能と効率のバランスが良好である。特にPARは柔軟であり,複数のプルーニングバージョンを提供し,様々なプルーニングシナリオに対処する。
論文 参考訳(メタデータ) (2024-12-09T13:02:35Z) - P$^2$ Law: Scaling Law for Post-Training After Model Pruning [25.07013858614455]
プルーニングは、大規模言語モデル(LLM)のハードウェア要件を減らすために広く採用されている技術である。
プルーニング後のモデル性能を回復するため、結果として生じる性能劣化を軽減するために後訓練が一般的である。
学習後コストとモデル性能のバランスをとるためには,学習後データの最適量を探索する必要がある。
論文 参考訳(メタデータ) (2024-11-15T15:28:42Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。