論文の概要: GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most
BERT-Pruning Methods
- arxiv url: http://arxiv.org/abs/2210.06384v1
- Date: Wed, 12 Oct 2022 16:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:10:31.892143
- Title: GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most
BERT-Pruning Methods
- Title(参考訳): GMP*: 高度に調整されたグローバルマグニチュードプルーニングは、ほとんどのBERTプルーニング方法より優れている
- Authors: Eldar Kurtic and Dan Alistarh
- Abstract要約: 大規模言語モデルのための古典的な段階的プルーニング(GMP)ベースラインの性能を再検討する。
我々は、GMP* と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 27.761221746022365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the performance of the classic gradual magnitude pruning (GMP)
baseline for large language models, focusing on the classic BERT benchmark on
various popular tasks. Despite existing evidence in the literature that GMP
performs poorly, we show that a simple and general variant, which we call GMP*,
can match and sometimes outperform more complex state-of-the-art methods. Our
results provide a simple yet strong baseline for future work, highlight the
importance of parameter tuning for baselines, and even improve the performance
of the state-of-the-art second-order pruning method in this setting.
- Abstract(参考訳): 大規模言語モデルのための古典的段階的プルーニング(GMP)ベースラインの性能を再検討し,様々なタスクに対する古典的BERTベンチマークに焦点を当てた。
GMPは性能が劣るという文献上の既存の証拠にもかかわらず、GMP*と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端法よりも優れていることを示す。
提案手法は,将来の作業において単純かつ強力なベースラインを提供し,ベースラインに対するパラメータチューニングの重要性を強調し,また,この設定における最先端の2次プルーニング法の性能も向上させる。
関連論文リスト
- Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Improving the efficiency of GP-GOMEA for higher-arity operators [0.0]
遺伝的プログラミング(GP)は、本質的に解釈可能な表現を進化させる方法を提供する。
GP-GOMEA (GP-GOMEA) はGPの1形態であり、サイズが制限されていないが正確な表現の進化に特に有効であることが見出され、解釈可能性の向上に寄与している。
本稿では,GP-GOMEAの2つの機能拡張について提案する。
論文 参考訳(メタデータ) (2024-02-15T10:20:40Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Deep Transformed Gaussian Processes [0.0]
変換ガウス過程(英: Transformed Gaussian Processs、TGP)は、可逆変換を用いて、前者のプロセス(典型的にはGP)からサンプルを共分散から変換することによって定義される過程である。
本稿では,プロセスの階層化の傾向に従い,DTGP(Deep Transformed Gaussian Processs)と呼ばれるTGPの一般化を提案する。
実験では、提案したDTGPを複数の回帰データセットで評価し、優れたスケーラビリティと性能を実現した。
論文 参考訳(メタデータ) (2023-10-27T16:09:39Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - Ahead-of-Time P-Tuning [0.2538209532048867]
Ahead-of-Time (AoT) P-Tuningは、事前学習言語モデル(LM)のためのパラメータ効率の良い微調整法である
我々は,RoBERTaモデルとDeBERTaモデルを用いて,GLUEおよびSuperGLUEベンチマークデータセットのAoT P-Tuningを評価する。
提案手法は, 1 つのバックボーン LM を用いてマルチタスクの推論を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:24:53Z) - Gaussian Process-Gated Hierarchical Mixtures of Experts [1.9785157637680997]
我々は専門家のプロセス付き階層的混合物(GPHME)を提案する。
入力に線形なゲーティングモデルを持つ他の専門家の混合物とは異なり、我々のモデルはガウス過程(GP)で構築されたゲーティング関数を用いる。
論文 参考訳(メタデータ) (2023-02-09T21:39:20Z) - Incremental Ensemble Gaussian Processes [53.3291389385672]
本稿では,EGPメタラーナーがGP学習者のインクリメンタルアンサンブル(IE-) GPフレームワークを提案し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ。
各GP専門家は、ランダムな特徴ベースの近似を利用してオンライン予測とモデル更新を行い、そのスケーラビリティを生かし、EGPメタラーナーはデータ適応重みを生かし、熟練者ごとの予測を合成する。
新たなIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。
論文 参考訳(メタデータ) (2021-10-13T15:11:25Z) - GNNAutoScale: Scalable and Expressive Graph Neural Networks via
Historical Embeddings [51.82434518719011]
GNNAutoScale(GAS)は、任意のメッセージパスGNNを大規模グラフにスケールするためのフレームワークである。
ガスは、前回のトレーニングの繰り返しから過去の埋め込みを利用して計算グラフのサブツリー全体を掘り起こします。
ガスは大規模グラフ上で最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2021-06-10T09:26:56Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。