論文の概要: Dynamic Encoder Transducer: A Flexible Solution For Trading Off Accuracy
For Latency
- arxiv url: http://arxiv.org/abs/2104.02176v1
- Date: Mon, 5 Apr 2021 22:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:13:37.938268
- Title: Dynamic Encoder Transducer: A Flexible Solution For Trading Off Accuracy
For Latency
- Title(参考訳): dynamic encoder transducer: 遅延の精度をトレードオフする柔軟なソリューション
- Authors: Yangyang Shi, Varun Nagaraja, Chunyang Wu, Jay Mahadeokar, Duc Le,
Rohit Prabhavalkar, Alex Xiao, Ching-Feng Yeh, Julian Chan, Christian Fuegen,
Ozlem Kalinli, Michael L. Seltzer
- Abstract要約: 1つのDETモデルは、再トレーニングや微調整なしに、異なる容量の複数のデバイスにスケールします。
協調学習は、1つのモデルで異なる深さを持つ複数のエンコーダを共同で訓練する。
Librispeechの実験結果によると、DETのフルサイズのエンコーダは、同じサイズのベースラインの単語誤り率を比較的8%以上減少させる。
- 参考スコア(独自算出の注目度): 29.565186028860854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a dynamic encoder transducer (DET) for on-device speech
recognition. One DET model scales to multiple devices with different
computation capacities without retraining or finetuning. To trading off
accuracy and latency, DET assigns different encoders to decode different parts
of an utterance. We apply and compare the layer dropout and the collaborative
learning for DET training. The layer dropout method that randomly drops out
encoder layers in the training phase, can do on-demand layer dropout in
decoding. Collaborative learning jointly trains multiple encoders with
different depths in one single model. Experiment results on Librispeech and
in-house data show that DET provides a flexible accuracy and latency trade-off.
Results on Librispeech show that the full-size encoder in DET relatively
reduces the word error rate of the same size baseline by over 8%. The
lightweight encoder in DET trained with collaborative learning reduces the
model size by 25% but still gets similar WER as the full-size baseline. DET
gets similar accuracy as a baseline model with better latency on a large
in-house data set by assigning a lightweight encoder for the beginning part of
one utterance and a full-size encoder for the rest.
- Abstract(参考訳): オンデバイス音声認識のための動的エンコーダトランスデューサ(DET)を提案する。
1つのDETモデルは、再トレーニングや微調整なしに異なる計算能力を持つ複数のデバイスにスケールする。
精度とレイテンシをトレードオフするために、detは異なるエンコーダを割り当てて発話の異なる部分をデコードする。
detトレーニングにレイヤドロップアウトと協調学習を適用して比較する。
トレーニングフェーズでランダムにエンコーダレイヤをドロップアウトするレイヤドロップアウトメソッドは、デコード時にオンデマンドレイヤドロップアウトを行うことができる。
協調学習は、1つのモデルで異なる深さを持つ複数のエンコーダを共同で訓練する。
Librispeechおよび社内データの実験結果は、DETがフレキシブルな精度とレイテンシのトレードオフを提供することを示している。
Librispeechの結果、DETのフルサイズエンコーダは、同じサイズのベースラインの単語誤り率を8%以上減少させることがわかった。
協調学習でトレーニングされたdetの軽量エンコーダは、モデルサイズを25%削減するが、フルサイズのベースラインと同等である。
DETは、1つの発話の開始部分に軽量エンコーダを割り当て、残りの部分にフルサイズのエンコーダを割り当てることで、大規模な社内データセットのレイテンシが向上したベースラインモデルと同様の精度を得る。
関連論文リスト
- Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - A Principled Hierarchical Deep Learning Approach to Joint Image
Compression and Classification [27.934109301041595]
本研究は,エンコーダを誘導し,コンパクトで差別的で,一般的な拡張/変換に適した特徴を抽出する3段階共同学習戦略を提案する。
CIFAR-10では最大1.5%,CIFAR-100では3%,従来のE2Eクロスエントロピートレーニングでは3%の精度向上が得られた。
論文 参考訳(メタデータ) (2023-10-30T15:52:18Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - Ultra Fast Speech Separation Model with Teacher Student Learning [44.71171732510265]
教師の学習(T-S学習)による性能向上と効率向上を目的とした超高速トランスフォーマーモデルの提案
T-S学習法は,スクラッチから学習した小さなトランスフォーマーモデルと比較して,複数チャネルと単一チャネルの音声分離において,単語誤り率(WER)を5%以上削減する。
論文 参考訳(メタデータ) (2022-04-27T09:02:45Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。