論文の概要: Structured Pruning of Self-Supervised Pre-trained Models for Speech
Recognition and Understanding
- arxiv url: http://arxiv.org/abs/2302.14132v1
- Date: Mon, 27 Feb 2023 20:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 19:01:14.164800
- Title: Structured Pruning of Self-Supervised Pre-trained Models for Speech
Recognition and Understanding
- Title(参考訳): 音声認識・理解のための自己教師付き事前学習モデルの構造化プルーニング
- Authors: Yifan Peng, Kwangyoun Kim, Felix Wu, Prashant Sridhar, Shinji Watanabe
- Abstract要約: 自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。
このような異種ネットワークを扱うための3つのタスク固有の構造化プルーニング手法を提案する。
LibriSpeech と SLURP の実験により,提案手法は従来の wav2vecbase よりも10% から30% の精度で精度が高く,劣化を伴わずに 40% から 50% の削減が可能であった。
- 参考スコア(独自算出の注目度): 43.68557263195205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised speech representation learning (SSL) has shown to be
effective in various downstream tasks, but SSL models are usually large and
slow. Model compression techniques such as pruning aim to reduce the model size
and computation without degradation in accuracy. Prior studies focus on the
pruning of Transformers; however, speech models not only utilize a stack of
Transformer blocks, but also combine a frontend network based on multiple
convolutional layers for low-level feature representation learning. This
frontend has a small size but a heavy computational cost. In this work, we
propose three task-specific structured pruning methods to deal with such
heterogeneous networks. Experiments on LibriSpeech and SLURP show that the
proposed method is more accurate than the original wav2vec2-base with 10% to
30% less computation, and is able to reduce the computation by 40% to 50%
without any degradation.
- Abstract(参考訳): 自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。
プルーニングのようなモデル圧縮技術は、精度を低下させることなく、モデルのサイズと計算を減らすことを目的としている。
先行研究は変圧器の刈り込みに重点を置いているが、音声モデルは変圧器ブロックのスタックを利用するだけでなく、複数の畳み込み層に基づくフロントエンドネットワークを結合して低レベル特徴表現学習を行う。
このフロントエンドはサイズは小さいが、計算コストは大きい。
本研究では,このような異種ネットワークを扱うためのタスク固有の構造的プルーニング手法を3つ提案する。
LibriSpeech と SLURP の実験により,提案手法は従来の wav2vec2 ベースよりも10% から30% の精度で精度が向上し,劣化を伴わずに 40% から 50% の削減が可能であった。
関連論文リスト
- Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Recycle-and-Distill: Universal Compression Strategy for
Transformer-based Speech SSL Models with Attention Map Reusing and Masking
Distillation [32.97898981684483]
HuBERTのようなトランスフォーマーベースの音声自己教師学習(SSL)モデルは、様々な音声処理タスクにおいて驚くべきパフォーマンスを示す。
音声SSLモデルの膨大なパラメータは、アカデミックや小規模企業で広く使用されるために、よりコンパクトなモデルに圧縮する必要がある。
論文 参考訳(メタデータ) (2023-05-19T14:07:43Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Ultra Fast Speech Separation Model with Teacher Student Learning [44.71171732510265]
教師の学習(T-S学習)による性能向上と効率向上を目的とした超高速トランスフォーマーモデルの提案
T-S学習法は,スクラッチから学習した小さなトランスフォーマーモデルと比較して,複数チャネルと単一チャネルの音声分離において,単語誤り率(WER)を5%以上削減する。
論文 参考訳(メタデータ) (2022-04-27T09:02:45Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。