論文の概要: On Addressing Practical Challenges for RNN-Transduce
- arxiv url: http://arxiv.org/abs/2105.00858v1
- Date: Tue, 27 Apr 2021 23:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 20:45:11.778197
- Title: On Addressing Practical Challenges for RNN-Transduce
- Title(参考訳): RNNトランスデューサの実用化に向けて
- Authors: Rui Zhao, Jian Xue, Jinyu Li, Wenning Wei, Lei He, Yifan Gong
- Abstract要約: オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
- 参考スコア(独自算出の注目度): 72.72132048437751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, several works are proposed to address practical challenges for
deploying RNN Transducer (RNN-T) based speech recognition system. These
challenges are adapting a well-trained RNN-T model to a new domain without
collecting the audio data, obtaining time stamps and confidence scores at word
level. The first challenge is solved with a splicing data method which
concatenates the speech segments extracted from the source domain data. To get
the time stamp, a phone prediction branch is added to the RNN-T model by
sharing the encoder for the purpose of force alignment. Finally, we obtain
word-level confidence scores by utilizing several types of features calculated
during decoding and from confusion network. Evaluated with Microsoft production
data, the splicing data adaptation method improves the baseline and adaption
with the text to speech method by 58.03% and 15.25% relative word error rate
reduction, respectively. The proposed time stamping method can get less than
50ms word timing difference on average while maintaining the recognition
accuracy of the RNN-T model. We also obtain high confidence annotation
performance with limited computation cost
- Abstract(参考訳): 本稿では,RNNトランスデューサ(RNN-T)をベースとした音声認識システムの実現に向けた実践的な課題について述べる。
これらの課題は、よく訓練されたrnn-tモデルを音声データを収集せずに新しいドメインに適応させ、単語レベルでタイムスタンプや信頼度スコアを得ることである。
第1の課題は、ソースドメインデータから抽出された音声セグメントを連結するスプライシングデータ手法によって解決される。
タイムスタンプを得るために、テンポアライメントのためにエンコーダを共有することにより、rnn-tモデルに電話予測ブランチを追加する。
最後に,デコード時に計算した複数種類の特徴と混乱ネットワークから単語レベルの信頼度を求める。
Microsoftの生産データから評価すると、スプライシングデータ適応法は、テキストによる音声への適応を、それぞれ58.03%、相対単語誤り率15.25%で改善する。
提案手法は,RNN-Tモデルの認識精度を維持しつつ,平均で50ms未満の単語タイミング差が得られる。
また,計算コストの少ない高い信頼度アノテーション性能を得る。
関連論文リスト
- Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z) - Improving the fusion of acoustic and text representations in RNN-T [35.43599666228086]
我々は、より表現力のある表現を生成するために、ゲーティング、バイリニアプーリング、およびそれらを結合ネットワークで組み合わせることを提案する。
提案手法の併用により, 単語誤り率を4%-5%削減できることを示す。
論文 参考訳(メタデータ) (2022-01-25T11:20:50Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - Optimize what matters: Training DNN-HMM Keyword Spotting Model Using End
Metric [21.581361079189563]
ディープニューラルネットワーク-隠れマルコフモデル(DNN-HMM)に基づく手法は、常にオンのキーワードスポッティングアルゴリズムの多くでうまく使われている。
本稿では,検出スコアを最適化することで,DNNパラメータを学習する新たなエンドツーエンドトレーニング戦略を提案する。
私たちのメソッドは、モデルアーキテクチャや推論フレームワークの変更を一切必要としません。
論文 参考訳(メタデータ) (2020-11-02T17:47:21Z) - Efficient minimum word error rate training of RNN-Transducer for
end-to-end speech recognition [21.65651608697333]
RNN-Transducer (RNN-T) のための新しい,効率的な最小単語誤り率 (MWER) トレーニング手法を提案する。
提案手法では,N-bestリストにおける各仮説に対する全てのアライメントの総和スコアを再計算する。
前向きアルゴリズムを用いて仮説確率スコアと後向き勾配を効率的に算出する。
論文 参考訳(メタデータ) (2020-07-27T18:33:35Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。