論文の概要: A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes
- arxiv url: http://arxiv.org/abs/2204.06164v1
- Date: Wed, 13 Apr 2022 04:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 14:04:07.528751
- Title: A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes
- Title(参考訳): 動的モデルサイズのための統一カスケードエンコーダASRモデル
- Authors: Shaojin Ding, Weiran Wang, Ding Zhao, Tara N. Sainath, Yanzhang He,
Robert David, Rami Botros, Xin Wang, Rina Panigrahy, Qiao Liang, Dongseong
Hwang, Ian McGraw, Rohit Prabhavalkar, Trevor Strohman
- Abstract要約: 本稿では,異なる配置シナリオのモデルを統一した動的カスケードエンコーダ自動音声認識(ASR)モデルを提案する。
提案モデルでは, ベースラインのカスケードエンコーダモデルと比較して30%小さく, 消費電力を33%削減する。
大、中、小のモデルを統一した3つのサイズモデルは、最小品質の損失で37%の総サイズ縮小を達成する。
- 参考スコア(独自算出の注目度): 54.83802872236367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a dynamic cascaded encoder Automatic Speech
Recognition (ASR) model, which unifies models for different deployment
scenarios. Moreover, the model can significantly reduce model size and power
consumption without loss of quality. Namely, with the dynamic cascaded encoder
model, we explore three techniques to maximally boost the performance of each
model size: 1) Use separate decoders for each sub-model while sharing the
encoders; 2) Use funnel-pooling to improve the encoder efficiency; 3) Balance
the size of causal and non-causal encoders to improve quality and fit
deployment constraints. Overall, the proposed large-medium model has 30%
smaller size and reduces power consumption by 33%, compared to the baseline
cascaded encoder model. The triple-size model that unifies the large, medium,
and small models achieves 37% total size reduction with minimal quality loss,
while substantially reducing the engineering efforts of having separate models.
- Abstract(参考訳): 本稿では,異なる展開シナリオのためのモデルを統一した動的カスケード符号化自動音声認識(asr)モデルを提案する。
さらに,モデルのサイズや消費電力を,品質を損なうことなく大幅に削減することができる。
すなわち、動的カスケードエンコーダモデルを用いて、各モデルサイズの性能を最大化するための3つの手法を探索する。
1) エンコーダを共有しながら,各サブモデルに対して別々のデコーダを使用する。
2) ファンネルプールを用いたエンコーダの効率向上
3) 品質を改善し,デプロイメント制約に適合するために,因果エンコーダと非causalエンコーダのサイズをバランスさせる。
全体として,提案する大型媒体モデルは,ベースラインカスケードエンコーダモデルと比較して30%小さく,消費電力を33%削減する。
大、中、小モデルを統一する3つのサイズモデルは、最小品質の損失で37%の総サイズ縮小を実現し、異なるモデルを持つことによるエンジニアリングの労力を大幅に削減する。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane
Networks [63.84589410872608]
本研究では,長期的空間的および時間的依存に対処する新しい非条件ビデオ生成モデルを提案する。
提案手法は計算複雑性をFLOPの測定値として2ドル程度削減する。
我々のモデルは高精細度ビデオクリップを256時間256ドルピクセルの解像度で合成でき、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Enhancing Quantised End-to-End ASR Models via Personalisation [12.971231464928806]
量子化モデル(PQM)のための新しいパーソナライズ戦略を提案する。
PQMは 4-bit NormalFloat Quantisation (NF4) アプローチをモデル量子化とSATのローランク適応(LoRA)に用いている。
LibriSpeechとTED-Lium 3コーパスで実験が行われた。
論文 参考訳(メタデータ) (2023-09-17T02:35:21Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - 4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict
decoders [29.799797974513552]
本稿では,CTC,アテンション,RNN-T,マスク予測の4デコーダ共同モデリング(4D)を提案する。
4つのデコーダは、アプリケーションシナリオに応じて簡単に切り替えられるように、共同でトレーニングされている。
実験の結果,提案したモデルが一貫してWERを減少させることがわかった。
論文 参考訳(メタデータ) (2022-12-21T07:15:59Z) - Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。
まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文 参考訳(メタデータ) (2022-10-11T03:02:40Z) - Multi-stage Progressive Compression of Conformer Transducer for
On-device Speech Recognition [7.450574974954803]
スマートデバイスにおける小さなメモリ帯域幅は、より小さな自動音声認識(ASR)モデルの開発を促す。
知識蒸留(KD)は、より小さなモデルサイズを達成するための一般的なモデル圧縮手法である。
KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-01T02:23:00Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。