論文の概要: PruMUX: Augmenting Data Multiplexing with Model Compression
- arxiv url: http://arxiv.org/abs/2305.14706v2
- Date: Wed, 23 Aug 2023 21:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 17:50:34.571458
- Title: PruMUX: Augmenting Data Multiplexing with Model Compression
- Title(参考訳): PruMUX: モデル圧縮によるデータ多重化の強化
- Authors: Yushan Su, Vishvak Murahari, Karthik Narasimhan, Kai Li
- Abstract要約: 本稿では、構造化プルーニングとデータ多重化という2つの手法を組み合わせて、どちらの手法でも得られる高速化ゲインを合成する。
我々のアプローチであるPruMUXは、精度が80%から74%のBERTベースモデルよりも7.5-29.5倍のスループット向上を実現している。
我々は,所望の精度損失予算を条件として,プルーニングと多重化の高性能パラメータを予測できるメタレベルモデルであるAuto-PruMUXを提案する。
- 参考スコア(独自算出の注目度): 42.89593283051397
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As language models increase in size by the day, methods for efficient
inference are critical to leveraging their capabilities for various
applications. Prior work has investigated techniques like model pruning,
knowledge distillation, and data multiplexing to increase model throughput
without sacrificing accuracy. In this paper, we combine two such methods --
structured pruning and data multiplexing -- to compound the speedup gains
obtained by either method. Our approach, PruMUX, obtains up to 7.5-29.5X
throughput improvement over BERT-base model with accuracy threshold from 80% to
74%. We further study various combinations of parameters (such as sparsity and
multiplexing factor) in the two techniques to provide a comprehensive analysis
of the tradeoff between accuracy and throughput in the resulting models. We
then propose Auto-PruMUX, a meta-level model that can predict the
high-performance parameters for pruning and multiplexing given a desired
accuracy loss budget, providing a practical method to leverage the combination
effectively.
- Abstract(参考訳): 言語モデルのサイズが日に日に大きくなるにつれ、効率的な推論の手法は様々なアプリケーションでその能力を活用するのに不可欠である。
先行研究は, モデルプルーニング, 知識蒸留, データ多重化といった手法を調査し, 精度を犠牲にすることなく, モデルのスループットを向上させる。
本稿では,構造化プルーニングとデータ多重化という2つの手法を組み合わせて,いずれの手法でも得られる高速化ゲインを合成する。
prumux は bert-base モデルに対する最大 7.5-29.5 倍のスループット向上を実現し,精度閾値を 80% から 74% まで向上させた。
さらに,2つの手法におけるパラメータの組み合わせ(スパーシティや多重化係数など)についても検討し,結果モデルの精度とスループットのトレードオフを包括的に解析した。
そこで本研究では, 精度低下予算を考慮し, プルーニングおよび多重化の高性能パラメータを予測可能なメタレベルモデルであるauto-prumuxを提案する。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Hybrid Deep Convolutional Neural Networks Combined with Autoencoders And Augmented Data To Predict The Look-Up Table 2006 [2.082445711353476]
本研究では、自己エンコーダとデータ拡張技術により強化されたハイブリッドディープ畳み込みニューラルネットワーク(DCNN)モデルの開発について検討する。
オリジナルの入力機能を3つの異なるオートエンコーダ構成で拡張することにより、モデルの予測能力は大幅に改善された。
論文 参考訳(メタデータ) (2024-08-26T20:45:07Z) - Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
空間性と量子化は、モデル精度を保ちながら計算量とメモリフットプリントの大幅な削減を個別に示す2つの顕著な圧縮手法である。
これら2つの手法間の相互作用を調査し、それらの組み合わせが最終的なモデルの精度に影響を及ぼすかどうかを評価する。
我々の研究結果は、リソース制限された計算プラットフォームにおける大規模モデルの効率的なデプロイと、サービスコストの削減にまで及んでいる。
論文 参考訳(メタデータ) (2024-05-31T15:34:13Z) - Fairer and More Accurate Tabular Models Through NAS [14.147928131445852]
本稿では,多目的ニューラルアーキテクチャサーチ (NAS) とハイパーパラメータ最適化 (HPO) を,表データの非常に困難な領域への最初の応用として提案する。
我々はNASで精度のみに最適化されたモデルが、本質的に公正な懸念に対処できないことをしばしば示している。
公平性、正確性、あるいは両方において、最先端のバイアス緩和手法を一貫して支配するアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-10-18T17:56:24Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How [62.467716468917224]
本稿では,最適事前学習モデルとハイパーパラメータを共同で探索し,微調整する手法を提案する。
本手法は,一連のデータセット上で,事前学習したモデルの性能に関する知識を伝達する。
得られたアプローチによって、新しいデータセットの正確な事前学習モデルを迅速に選択できることを実証的に実証する。
論文 参考訳(メタデータ) (2023-06-06T16:15:26Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Efficient Ensemble Model Generation for Uncertainty Estimation with
Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。
提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。
また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文 参考訳(メタデータ) (2020-05-21T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。