論文の概要: TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression
For On-device ASR Models
- arxiv url: http://arxiv.org/abs/2309.01947v2
- Date: Mon, 27 Nov 2023 05:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 15:02:28.386614
- Title: TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression
For On-device ASR Models
- Title(参考訳): TODM:列車が複数の効率的なスーパーネットベースのRNN-T圧縮をオンデバイスASRモデルに展開
- Authors: Yuan Shangguan, Haichuan Yang, Danni Li, Chunyang Wu, Yassir
Fathullah, Dilin Wang, Ayushi Dalmia, Raghuraman Krishnamoorthi, Ozlem
Kalinli, Junteng Jia, Jay Mahadeokar, Xin Lei, Mike Seltzer, Vikas Chandra
- Abstract要約: TODMは、ハードウェアフレンドリーなオンデバイスASRモデルの多くのサイズを、単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための、新しいアプローチである。
我々は,TODMスーパーネットの結果を改善するために,新しい3つの手法の組み合わせを導入する。
結果から,TODMスーパーネットは単語誤り率(WER)において,最大3%の精度で手動調整モデルの性能に適合するか,上回っていることがわかった。
- 参考スコア(独自算出の注目度): 30.758876520227666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) models need to be optimized for specific
hardware before they can be deployed on devices. This can be done by tuning the
model's hyperparameters or exploring variations in its architecture.
Re-training and re-validating models after making these changes can be a
resource-intensive task. This paper presents TODM (Train Once Deploy Many), a
new approach to efficiently train many sizes of hardware-friendly on-device ASR
models with comparable GPU-hours to that of a single training job. TODM
leverages insights from prior work on Supernet, where Recurrent Neural Network
Transducer (RNN-T) models share weights within a Supernet. It reduces layer
sizes and widths of the Supernet to obtain subnetworks, making them smaller
models suitable for all hardware types. We introduce a novel combination of
three techniques to improve the outcomes of the TODM Supernet: adaptive
dropouts, an in-place Alpha-divergence knowledge distillation, and the use of
ScaledAdam optimizer. We validate our approach by comparing Supernet-trained
versus individually tuned Multi-Head State Space Model (MH-SSM) RNN-T using
LibriSpeech. Results demonstrate that our TODM Supernet either matches or
surpasses the performance of manually tuned models by up to a relative of 3%
better in word error rate (WER), while efficiently keeping the cost of training
many models at a small constant.
- Abstract(参考訳): 自動音声認識(ASR)モデルは、デバイスにデプロイする前に、特定のハードウェアに最適化する必要がある。
これはモデルのハイパーパラメータをチューニングしたり、アーキテクチャのバリエーションを探索することで実現できる。
これらの変更後のモデルの再トレーニングと再検証は、リソース集約的なタスクになり得る。
本稿では,TODM(Train Once Deploy Many)を提案する。ハードウェアフレンドリーなデバイス上でのASRモデルのサイズを,単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための新しいアプローチである。
TODMは、Recurrent Neural Network Transducer(RNN-T)モデルがSupernet内で重みを共有するSupernetに関する以前の作業の洞察を活用する。
サブネットワークを得るためにスーパーネットの層サイズと幅を削減し、すべてのハードウェアタイプに適したモデルを小さくする。
我々は,TODMスーパーネットの結果を改善するために,適応ドロップアウト,Alpha-diergenceナレッジ蒸留,ScaledAdamオプティマイザの3つの新しい組み合わせを紹介した。
LibriSpeech を用いたマルチヘッド状態空間モデル (MH-SSM) RNN-T との比較により,提案手法の有効性を検証した。
その結果,todmスーパーネットは,単語誤り率 (wer) の相対値が最大3%向上し,多くのモデルのトレーニングコストを小さく抑えつつ,手作業で調整したモデルの性能と一致するか,あるいは超えていることがわかった。
関連論文リスト
- Dynamic Encoder Size Based on Data-Driven Layer-wise Pruning for Speech Recognition [24.71497121634708]
可変サイズモデルは、異なるハードウェアおよび/またはアプリケーション制約下でASRシステムをデプロイするためにしばしば必要とされる。
動的エンコーダ・サイズ・アプローチを提案する。この手法は1つのスーパーネット内の複数のパフォーマンスモデルをスクラッチからトレーニングする。
論文 参考訳(メタデータ) (2024-07-10T08:35:21Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts [55.470959564665705]
ウェイトシェアリングスーパーネットは、最先端のニューラルサーチフレームワークのパフォーマンス評価に不可欠である。
提案手法は,高速機械翻訳モデルのためのNASにおける最先端(SoTA)性能を実現する。
メモリ効率のよいタスク非依存のBERTモデルを構築するためにNASが優れている。
論文 参考訳(メタデータ) (2023-06-08T00:35:36Z) - Transfer-Once-For-All: AI Model Optimization for Edge [0.0]
計算訓練コストを一定に抑えた小データセット上でのスーパーネット型トレーニングのためのTransfer-Once-For-All(TOFA)を提案する。
小さなデータから生じる課題を克服するため、TOFAは、統合された半教師付きトレーニング損失を使用して、スーパーネット内のすべての既存のものを同時にトレーニングする。
論文 参考訳(メタデータ) (2023-03-27T04:14:30Z) - Learning a Dual-Mode Speech Recognition Model via Self-Pruning [18.248552732790852]
本研究の目的は、小型のデバイスオンデバイスストリーミングASRモデルと、大規模なサーバ非ストリーミングモデルとを1つのスーパーネットで共同で学習することである。
本稿では、wav2vec 2.0の自己教師型学習と教師型ASRファインチューニングの両方でスーパーネットトレーニングを行うことで、従来の作業のように大規模な非ストリーミングモデルを大幅に改善できるだけでなく、コンパクトなスパースストリーミングモデルも改善できることを示す。
論文 参考訳(メタデータ) (2022-07-25T05:03:13Z) - Omni-sparsity DNN: Fast Sparsity Optimization for On-Device Streaming
E2E ASR via Supernet [24.62661549442265]
我々は,Omni-sparsity DNNを提案する。そこでは,1つのニューラルネットワークを切断して,広範囲のモデルサイズに対して最適化されたモデルを生成する。
以上の結果から,LibriSpeechのトレーニング時間とリソースの保存時間は,個別のプルーニングモデルと比較すると,類似あるいは精度がよいことがわかった。
論文 参考訳(メタデータ) (2021-10-15T20:28:27Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。