論文の概要: Efficient minimum word error rate training of RNN-Transducer for
end-to-end speech recognition
- arxiv url: http://arxiv.org/abs/2007.13802v1
- Date: Mon, 27 Jul 2020 18:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 08:01:45.757113
- Title: Efficient minimum word error rate training of RNN-Transducer for
end-to-end speech recognition
- Title(参考訳): エンドツーエンド音声認識のためのRNN変換器の最小単語誤り率学習
- Authors: Jinxi Guo, Gautam Tiwari, Jasha Droppo, Maarten Van Segbroeck, Che-Wei
Huang, Andreas Stolcke, Roland Maas
- Abstract要約: RNN-Transducer (RNN-T) のための新しい,効率的な最小単語誤り率 (MWER) トレーニング手法を提案する。
提案手法では,N-bestリストにおける各仮説に対する全てのアライメントの総和スコアを再計算する。
前向きアルゴリズムを用いて仮説確率スコアと後向き勾配を効率的に算出する。
- 参考スコア(独自算出の注目度): 21.65651608697333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a novel and efficient minimum word error rate (MWER)
training method for RNN-Transducer (RNN-T). Unlike previous work on this topic,
which performs on-the-fly limited-size beam-search decoding and generates
alignment scores for expected edit-distance computation, in our proposed
method, we re-calculate and sum scores of all the possible alignments for each
hypothesis in N-best lists. The hypothesis probability scores and
back-propagated gradients are calculated efficiently using the forward-backward
algorithm. Moreover, the proposed method allows us to decouple the decoding and
training processes, and thus we can perform offline parallel-decoding and MWER
training for each subset iteratively. Experimental results show that this
proposed semi-on-the-fly method can speed up the on-the-fly method by 6 times
and result in a similar WER improvement (3.6%) over a baseline RNN-T model. The
proposed MWER training can also effectively reduce high-deletion errors (9.2%
WER-reduction) introduced by RNN-T models when EOS is added for endpointer.
Further improvement can be achieved if we use a proposed RNN-T rescoring method
to re-rank hypotheses and use external RNN-LM to perform additional rescoring.
The best system achieves a 5% relative improvement on an English test-set of
real far-field recordings and a 11.6% WER reduction on music-domain utterances.
- Abstract(参考訳): 本稿では,RNN-Transducer (RNN-T) のための新しい,効率的な最小単語誤り率 (MWER) トレーニング手法を提案する。
提案手法では, オンザフライで限定的なビームサーチデコードを行い, 期待される編集距離計算のためのアライメントスコアを生成する, 先行研究と異なり, 提案手法では, n-bestリストの各仮説に対して, 可能なアライメントのスコアを再計算し, 集計する。
前向きアルゴリズムを用いて仮説確率スコアと後向き勾配を効率的に算出する。
さらに,提案手法によりデコードとトレーニングプロセスの分離が可能となり,各サブセットに対してオフライン並列デコードとMWERトレーニングを反復的に行うことができる。
実験結果から,このセミ・オン・ザ・フライ法は6倍の高速化を実現し,ベースラインRNN-TモデルよりもWERの改善(3.6%)を達成できた。
提案されたMWERトレーニングは、エンドポイントにEOSを追加する際にRNN-Tモデルで導入された高削除誤差(9.2% WER-reduction)を効果的に低減する。
提案手法を用いて仮説の再検討を行い, 外部RNN-LMを用いてさらなる再描画を行う場合, さらなる改善が期待できる。
最高のシステムは、イングランドのテストセットである実際の遠距離録音を5%改善し、音楽領域の発話を11.6%削減する。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Grad-Instructor: Universal Backpropagation with Explainable Evaluation Neural Networks for Meta-learning and AutoML [0.0]
評価ニューラルネットワーク(ENN)は、ターゲットネットワークの性能を予測するために、深層強化学習を通じて訓練される。
ENNは、バックプロパゲーション中に追加評価機能として機能する。
論文 参考訳(メタデータ) (2024-06-15T08:37:51Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Boost Neural Networks by Checkpoints [9.411567653599358]
本稿では,ディープニューラルネットワーク(DNN)のチェックポイントをアンサンブルする新しい手法を提案する。
同じトレーニング予算で,Cifar-100では4.16%,Tiny-ImageNetでは6.96%,ResNet-110アーキテクチャでは6.96%の誤差を達成した。
論文 参考訳(メタデータ) (2021-10-03T09:14:15Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。