論文の概要: Multi-stage Progressive Compression of Conformer Transducer for
On-device Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.00169v1
- Date: Sat, 1 Oct 2022 02:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 17:56:55.068628
- Title: Multi-stage Progressive Compression of Conformer Transducer for
On-device Speech Recognition
- Title(参考訳): オンデバイス音声認識のためのコンバータ変換器の多段プログレッシブ圧縮
- Authors: Jash Rathod, Nauman Dawalatabad, Shatrughan Singh, Dhananjaya Gowda
- Abstract要約: スマートデバイスにおける小さなメモリ帯域幅は、より小さな自動音声認識(ASR)モデルの開発を促す。
知識蒸留(KD)は、より小さなモデルサイズを達成するための一般的なモデル圧縮手法である。
KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.450574974954803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The smaller memory bandwidth in smart devices prompts development of smaller
Automatic Speech Recognition (ASR) models. To obtain a smaller model, one can
employ the model compression techniques. Knowledge distillation (KD) is a
popular model compression approach that has shown to achieve smaller model size
with relatively lesser degradation in the model performance. In this approach,
knowledge is distilled from a trained large size teacher model to a smaller
size student model. Also, the transducer based models have recently shown to
perform well for on-device streaming ASR task, while the conformer models are
efficient in handling long term dependencies. Hence in this work we employ a
streaming transducer architecture with conformer as the encoder. We propose a
multi-stage progressive approach to compress the conformer transducer model
using KD. We progressively update our teacher model with the distilled student
model in a multi-stage setup. On standard LibriSpeech dataset, our experimental
results have successfully achieved compression rates greater than 60% without
significant degradation in the performance compared to the larger teacher
model.
- Abstract(参考訳): スマートデバイスにおけるメモリ帯域幅の縮小は、より小さな自動音声認識(ASR)モデルの開発を促す。
より小さなモデルを得るには、モデル圧縮技術を用いることができる。
知識蒸留 (KD) は, モデル性能を比較的低下させることなく, より小さなモデルサイズを実現するための一般的なモデル圧縮手法である。
このアプローチでは、訓練された大規模教師モデルからより小規模な学生モデルに知識を蒸留する。
また、トランスデューサベースのモデルでは、デバイス上でのストリーミングASRタスクがうまく機能し、コンバータモデルは長期的な依存関係を扱うのに効率的であることが最近示されている。
そこで本研究では,コンバータをエンコーダとするストリーミングトランスデューサアーキテクチャを採用した。
KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
留学生モデルを用いて,多段階的に教師モデルを段階的に更新する。
標準librispeechデータセットでは, 教師モデルと比較して, 性能が著しく低下することなく, 60%以上の圧縮率を達成できた。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Tiny Models are the Computational Saver for Large Models [1.8350044465969415]
本稿では,TinySaverについて紹介する。TinySaverは,大規模モデルを適応的に置き換えるために小さなモデルを用いる,早期に出現する動的モデル圧縮手法である。
この手法をImageNet-1k分類で評価した結果,最大90%の演算数を削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-26T14:14:30Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - Ultra Fast Speech Separation Model with Teacher Student Learning [44.71171732510265]
教師の学習(T-S学習)による性能向上と効率向上を目的とした超高速トランスフォーマーモデルの提案
T-S学習法は,スクラッチから学習した小さなトランスフォーマーモデルと比較して,複数チャネルと単一チャネルの音声分離において,単語誤り率(WER)を5%以上削減する。
論文 参考訳(メタデータ) (2022-04-27T09:02:45Z) - A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes [54.83802872236367]
本稿では,異なる配置シナリオのモデルを統一した動的カスケードエンコーダ自動音声認識(ASR)モデルを提案する。
提案モデルでは, ベースラインのカスケードエンコーダモデルと比較して30%小さく, 消費電力を33%削減する。
大、中、小のモデルを統一した3つのサイズモデルは、最小品質の損失で37%の総サイズ縮小を達成する。
論文 参考訳(メタデータ) (2022-04-13T04:15:51Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。