論文の概要: Task-Agnostic Structured Pruning of Speech Representation Models
- arxiv url: http://arxiv.org/abs/2306.01385v2
- Date: Sun, 9 Jul 2023 06:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 21:56:28.484245
- Title: Task-Agnostic Structured Pruning of Speech Representation Models
- Title(参考訳): 音声表現モデルのタスク非依存的構造化プルーニング
- Authors: Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan
- Abstract要約: 性能劣化を補うための微粒なアテンションヘッドプルーニング法を提案する。
SUPERBベンチマーク実験により,複数のタスクで高密度モデルに匹敵する性能が得られた。
- 参考スコア(独自算出の注目度): 18.555223754089905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-trained models such as Wav2vec2, Hubert, and WavLM have
been shown to significantly improve many speech tasks. However, their large
memory and strong computational requirements hinder their industrial
applicability. Structured pruning is a hardware-friendly model compression
technique but usually results in a larger loss of accuracy. In this paper, we
propose a fine-grained attention head pruning method to compensate for the
performance degradation. In addition, we also introduce the straight through
estimator into the L0 regularization to further accelerate the pruned model.
Experiments on the SUPERB benchmark show that our model can achieve comparable
performance to the dense model in multiple tasks and outperforms the Wav2vec
2.0 base model on average, with 72% fewer parameters and 2 times faster
inference speed.
- Abstract(参考訳): Wav2vec2, Hubert, WavLMなどの自己教師付き事前訓練モデルでは、多くの音声タスクを大幅に改善することが示されている。
しかし、その大きなメモリと強力な計算要求が産業応用を妨げている。
構造化プルーニングはハードウェアフレンドリーなモデル圧縮技術であるが、通常は精度が低下する。
本稿では,性能劣化を補償するための細粒度注意ヘッドプルーニング法を提案する。
さらに,L0正則化に直線スルー推定器を導入し,プルーンドモデルをさらに高速化する。
superbベンチマークの実験では、複数のタスクで密度の高いモデルと同等の性能を達成でき、平均でwav2vec 2.0ベースモデルよりも72%少ないパラメータと2倍速い推論速度を持つ。
関連論文リスト
- Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - Enhancing Inference Efficiency of Large Language Models: Investigating Optimization Strategies and Architectural Innovations [0.0]
この論文はモデル圧縮の手法を探求する。
モデル圧縮の有効な方法として,トランスフォーマーLLMにおいて,後続の注意サブレイヤをスキップする簡単な手法を実証的に示す。
その結果,Llama 2 7Bでは21%の高速化が見られた。
論文 参考訳(メタデータ) (2024-04-02T19:53:54Z) - Application of Knowledge Distillation to Multi-task Speech
Representation Learning [2.0908300719428228]
音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
論文 参考訳(メタデータ) (2022-10-29T14:22:43Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。