論文の概要: TT-MPD: Test Time Model Pruning and Distillation
- arxiv url: http://arxiv.org/abs/2412.07114v1
- Date: Tue, 10 Dec 2024 02:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:22.784950
- Title: TT-MPD: Test Time Model Pruning and Distillation
- Title(参考訳): TT-MPD:試験時間モデルプルーニングと蒸留
- Authors: Haihang Wu, Wei Wang, Tamasha Malepathirana, Sachith Seneviratne, Denny Oetomo, Saman Halgamuge,
- Abstract要約: プルーニングは、推論速度加速のための大きな事前訓練されたモデルを圧縮する有効な方法である。
以前のプルーニングアプローチは、プルーニングとその後の微調整の両方において、オリジナルのトレーニングデータセットへのアクセスに依存していた。
近似された微調整精度と潜在的な推論遅延の削減を考慮した効率的なプルーニング法を提案する。
- 参考スコア(独自算出の注目度): 3.675015670568961
- License:
- Abstract: Pruning can be an effective method of compressing large pre-trained models for inference speed acceleration. Previous pruning approaches rely on access to the original training dataset for both pruning and subsequent fine-tuning. However, access to the training data can be limited due to concerns such as data privacy and commercial confidentiality. Furthermore, with covariate shift (disparities between test and training data distributions), pruning and finetuning with training datasets can hinder the generalization of the pruned model to test data. To address these issues, pruning and finetuning the model with test time samples becomes essential. However, test-time model pruning and fine-tuning incur additional computation costs and slow down the model's prediction speed, thus posing efficiency issues. Existing pruning methods are not efficient enough for test time model pruning setting, since finetuning the pruned model is needed to evaluate the importance of removable components. To address this, we propose two variables to approximate the fine-tuned accuracy. We then introduce an efficient pruning method that considers the approximated finetuned accuracy and potential inference latency saving. To enhance fine-tuning efficiency, we propose an efficient knowledge distillation method that only needs to generate pseudo labels for a small set of finetuning samples one time, thereby reducing the expensive pseudo-label generation cost. Experimental results demonstrate that our method achieves a comparable or superior tradeoff between test accuracy and inference latency, with a 32% relative reduction in pruning and finetuning time compared to the best existing method.
- Abstract(参考訳): プルーニングは、推論速度加速のための大きな事前訓練されたモデルを圧縮する有効な方法である。
以前のプルーニングアプローチは、プルーニングとその後の微調整の両方において、オリジナルのトレーニングデータセットへのアクセスに依存していた。
しかし、データプライバシや商業機密などの懸念から、トレーニングデータへのアクセスは制限される可能性がある。
さらに、共変量シフト(テストとトレーニングデータ分布の差異)、プルーニングとトレーニングデータセットによる微調整は、データをテストするためのプルーニングモデルの一般化を妨げる可能性がある。
これらの問題に対処するためには、モデルをテスト時間サンプルで切り刻み、微調整することが不可欠である。
しかし、テストタイムモデルプルーニングと微調整により計算コストが増大し、予測速度が低下し、効率上の問題が発生する。
既存のプルーニング法は、除去可能なコンポーネントの重要性を評価するために、プルーニングモデルを微調整する必要があるため、テスト時間モデルプルーニング設定には十分ではない。
そこで本研究では,微調整精度を近似する2つの変数を提案する。
次に、近似された微調整精度と潜在的な推論遅延の削減を考慮した効率的なプルーニング手法を提案する。
微調整効率を向上させるため,少量の微調整サンプルに対して擬似ラベルを一度に生成するだけで,高価な擬似ラベル生成コストを低減できる効率的な知識蒸留法を提案する。
実験結果から,テスト精度と推論遅延のトレードオフを比較検討し,既存の手法と比較して,プルーニング時間と微調整時間を32%削減した。
関連論文リスト
- PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Distilling the Knowledge in Data Pruning [4.720247265804016]
刈り込みサブセットのトレーニングにおいて,知識蒸留(KD)を取り入れたデータ刈り込みの適用について検討する。
我々は、データセット、プルーニング方法、および全てのプルーニング率において、大幅な改善を示す。
興味をそそる観察を行ない、より低いプルーニング率を使用すると、より大きな教師が精度を低下させ、驚くべきことに、学生よりも少ない能力の教師を雇うことで、結果が改善する可能性がある。
論文 参考訳(メタデータ) (2024-03-12T17:44:45Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Combined Pruning for Nested Cross-Validation to Accelerate Automated
Hyperparameter Optimization for Embedded Feature Selection in
High-Dimensional Data with Very Small Sample Sizes [3.51500332842165]
非常に小さなサンプルサイズを持つ高次元データの無関係な特徴を排除するための木に基づく組込み特徴選択は、モデル構築プロセスに最適化されたハイパーパラメータを必要とする。
標準的なプルーニングアルゴリズムは、性能評価基準のばらつきが大きいため、計算が遅れたり、計算を中断するリスクを負わなければならない。
我々は、最先端の半減期プルーナーの使用に適応し、ドメインまたは事前知識に基づく2つの新しいプルーニング戦略と組み合わせる。
提案した3層プルーナーの組み合わせは、将来有望な試行を継続すると同時に、現状の使用と比較して、最大81,3%まで製造されるモデルの数を削減している。
論文 参考訳(メタデータ) (2022-02-01T17:42:37Z) - Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay [5.3330804968579795]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
これまでに観測された合成試料の分布をモデル化する。
論文 参考訳(メタデータ) (2022-01-09T14:14:28Z) - Block Pruning For Faster Transformers [89.70392810063247]
小型モデルと高速モデルの両方を対象としたブロックプルーニング手法を提案する。
このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。
論文 参考訳(メタデータ) (2021-09-10T12:46:32Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。