論文の概要: Improved Methods for Model Pruning and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2505.14052v1
- Date: Tue, 20 May 2025 07:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.872867
- Title: Improved Methods for Model Pruning and Knowledge Distillation
- Title(参考訳): モデル抽出法の改良と知識蒸留
- Authors: Wei Jiang, Anying Fu, Youling Zhang,
- Abstract要約: MAMAプルーニング(MAMA Pruning)は、R1やo3-miniのような大規模言語モデルのパフォーマンス最適化手法である。
モデルのサイズと計算の複雑さを効果的に減らし、極端なプルーニングレベルでも元の未実行モデルに匹敵する性能を維持しながら維持する。
予備的な実験結果から,本手法は様々なプルーニングレベルおよび下流の計算言語タスクにおいて,最先端の手法に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 3.8993503758122663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model pruning is a performance optimization technique for large language models like R1 or o3-mini. However, existing pruning methods often lead to significant performance degradation or require extensive retraining and fine-tuning. This technique aims to identify and remove neurons, connections unlikely leading to the contribution during the human-computer interaction phase. Our goal is to obtain a much smaller and faster knowledge distilled model that can quickly generate content almost as good as those of the unpruned ones. We propose MAMA Pruning, short for Movement and Magnitude Analysis, an improved pruning method that effectively reduces model size and computational complexity while maintaining performance comparable to the original unpruned model even at extreme pruned levels. The improved method is based on weights, bias fixed in the pre-training phase and GRPO rewards verified during the post-training phase as our novel pruning indicators. Preliminary experimental results show that our method outperforms and be comparable to state-of-the-art methods across various pruning levels and different downstream computational linguistics tasks.
- Abstract(参考訳): モデルプルーニング(Model pruning)は、R1やo3-miniのような大規模言語モデルのパフォーマンス最適化手法である。
しかし、既存の刈り取り法は、しばしば性能を著しく低下させるか、広範囲な再訓練と微調整を必要とする。
この技術は、ヒトとコンピュータの相互作用フェーズにおける貢献につながる可能性が低い神経細胞を識別し、除去することを目的としている。
私たちのゴールは、未処理のものとほぼ同等の速さでコンテンツを生成できる、ずっと小さくより高速な知識蒸留モデルを得ることです。
我々は, モデルサイズと計算複雑性を効果的に低減し, 極端プルーニングレベルにおいても元の未切断モデルに匹敵する性能を維持しながら, 改良されたプルーニング法である動きとマグニチュード分析の略であるMAMAプルーニングを提案する。
本手法は, プレトレーニングフェーズにおける重み, 偏差, ポストトレーニングフェーズにおけるGRPO報酬を新たなプルーニング指標として用いた。
予備的な実験結果から,本手法は様々なプルーニングレベルおよび下流の計算言語タスクにおいて,最先端の手法に匹敵する性能を示した。
関連論文リスト
- DReSS: Data-driven Regularized Structured Streamlining for Large Language Models [30.47317140878219]
大規模言語モデル(LLM)は、様々な領域で大きな進歩を遂げているが、その規模が大きくなると高い計算とメモリコストがもたらされる。
本稿では,まず正規化,次にプーン,そして最後に微細構造を適用する新しいパラダイムを提案する。
プルーニングされるコンポーネントを正規化するために少量のデータを活用することで、DReSSは、重要な情報をモデルの残りの部分に前もって明示的に転送する。
論文 参考訳(メタデータ) (2025-01-29T14:28:11Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Sparse Progressive Distillation: Resolving Overfitting under
Pretrain-and-Finetune Paradigm [7.662952656290564]
トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。
オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
論文 参考訳(メタデータ) (2021-10-15T16:42:56Z) - Block Pruning For Faster Transformers [89.70392810063247]
小型モデルと高速モデルの両方を対象としたブロックプルーニング手法を提案する。
このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。
論文 参考訳(メタデータ) (2021-09-10T12:46:32Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - Movement Pruning: Adaptive Sparsity by Fine-Tuning [115.91907953454034]
マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。
本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
論文 参考訳(メタデータ) (2020-05-15T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。