論文の概要: Omni-sparsity DNN: Fast Sparsity Optimization for On-Device Streaming
E2E ASR via Supernet
- arxiv url: http://arxiv.org/abs/2110.08352v1
- Date: Fri, 15 Oct 2021 20:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 18:20:10.712590
- Title: Omni-sparsity DNN: Fast Sparsity Optimization for On-Device Streaming
E2E ASR via Supernet
- Title(参考訳): Omni-sparsity DNN:SupernetによるオンデバイスストリーミングE2E ASRの高速化
- Authors: Haichuan Yang, Yuan Shangguan, Dilin Wang, Meng Li, Pierce Chuang,
Xiaohui Zhang, Ganesh Venkatesh, Ozlem Kalinli, Vikas Chandra
- Abstract要約: 我々は,Omni-sparsity DNNを提案する。そこでは,1つのニューラルネットワークを切断して,広範囲のモデルサイズに対して最適化されたモデルを生成する。
以上の結果から,LibriSpeechのトレーニング時間とリソースの保存時間は,個別のプルーニングモデルと比較すると,類似あるいは精度がよいことがわかった。
- 参考スコア(独自算出の注目度): 24.62661549442265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From wearables to powerful smart devices, modern automatic speech recognition
(ASR) models run on a variety of edge devices with different computational
budgets. To navigate the Pareto front of model accuracy vs model size,
researchers are trapped in a dilemma of optimizing model accuracy by training
and fine-tuning models for each individual edge device while keeping the
training GPU-hours tractable. In this paper, we propose Omni-sparsity DNN,
where a single neural network can be pruned to generate optimized model for a
large range of model sizes. We develop training strategies for Omni-sparsity
DNN that allows it to find models along the Pareto front of word-error-rate
(WER) vs model size while keeping the training GPU-hours to no more than that
of training one singular model. We demonstrate the Omni-sparsity DNN with
streaming E2E ASR models. Our results show great saving on training time and
resources with similar or better accuracy on LibriSpeech compared to
individually pruned sparse models: 2%-6.6% better WER on Test-other.
- Abstract(参考訳): ウェアラブルから強力なスマートデバイスに至るまで、現代の自動音声認識(ASR)モデルは、さまざまな計算予算を持つさまざまなエッジデバイス上で動作する。
モデル精度のpareto面とモデルサイズをナビゲートするには、各エッジデバイスに対するトレーニングと微調整によるモデルの精度の最適化というジレンマに閉じ込められ、トレーニングgpu時間をトラクタブルに保たれます。
本稿では,モデルサイズに最適化されたモデルを生成するために,単一ニューラルネットワークを刈り取ることができるOmni-sparsity DNNを提案する。
我々は,単語誤り率 (wer) とモデルサイズ (モデルサイズ) のparetoフロントに沿ってモデルを探索すると同時に,gpu 時間のトレーニングを1つの特異モデルのトレーニング以上のものに保たせる,omni-sparsity dnn のトレーニング戦略を開発した。
ストリーミングE2E ASRモデルを用いたOmni-sparsity DNNを実演する。
以上の結果から,LibriSpeechのトレーニング時間やリソースの保存精度は,個別に分離したスパースモデルに比べて高い2%-6.6%向上した。
関連論文リスト
- ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization [59.72782742378666]
本稿では,Reward-based Noise Optimization (ReNO) を提案する。
20-50秒の計算予算の中で、ReNOによって強化されたワンステップモデルは、現在のすべてのオープンソーステキスト・トゥ・イメージ・モデルの性能を一貫して上回った。
論文 参考訳(メタデータ) (2024-06-06T17:56:40Z) - RepCNN: Micro-sized, Mighty Models for Wakeword Detection [3.4888176891918654]
常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。
より大規模なマルチブランチアーキテクチャへの計算によって、小さな畳み込みモデルをよりよく訓練できることが示される。
我々は、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。
論文 参考訳(メタデータ) (2024-06-04T16:14:19Z) - Anole: Adapting Diverse Compressed Models For Cross-Scene Prediction On Mobile Devices [17.542012577533015]
Anoleは、モバイルデバイス上のローカルDNNモデル推論に対処するための軽量なスキームである。
我々は、さまざまなタイプのモバイルデバイスにAnoleを実装し、無人航空機(UAV)に基づく広範囲なトレース駆動および実世界の実験を行う。
論文 参考訳(メタデータ) (2024-05-09T12:06:18Z) - TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression
For On-device ASR Models [30.758876520227666]
TODMは、ハードウェアフレンドリーなオンデバイスASRモデルの多くのサイズを、単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための、新しいアプローチである。
我々は,TODMスーパーネットの結果を改善するために,新しい3つの手法の組み合わせを導入する。
結果から,TODMスーパーネットは単語誤り率(WER)において,最大3%の精度で手動調整モデルの性能に適合するか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-05T04:47:55Z) - Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文 参考訳(メタデータ) (2021-12-16T18:59:50Z) - Real-time Human Detection Model for Edge Devices [0.0]
畳み込みニューラルネットワーク(CNN)は、検出と分類タスクにおいて、従来の特徴抽出と機械学習モデルを置き換える。
最近、リアルタイムタスクのために軽量CNNモデルが導入されている。
本稿では,Raspberry Piのような限られたエッジデバイスに適合するCNNベースの軽量モデルを提案する。
論文 参考訳(メタデータ) (2021-11-20T18:42:17Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Developing RNN-T Models Surpassing High-Performance Hybrid Models with
Customization Capability [46.73349163361723]
リカレントニューラルネットワークトランスデューサ(Recurrent Neural Network Transducer, RNN-T)は、音声認識のための一般的なハイブリッドモデルを置き換える、有望なエンドツーエンド(E2E)モデルである。
トレーニング中のGPUメモリ消費を低減したRNN-Tモデルの最近の開発について述べる。
本稿では,RNN-Tモデルを新しいドメインにカスタマイズする方法について検討する。
論文 参考訳(メタデータ) (2020-07-30T02:35:20Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。