論文の概要: Less Is More: Improved RNN-T Decoding Using Limited Label Context and
Path Merging
- arxiv url: http://arxiv.org/abs/2012.06749v1
- Date: Sat, 12 Dec 2020 07:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 05:24:56.423907
- Title: Less Is More: Improved RNN-T Decoding Using Limited Label Context and
Path Merging
- Title(参考訳): Less is More: 限定ラベルコンテキストとパスマージによるRNN-Tデコードの改善
- Authors: Rohit Prabhavalkar, Yanzhang He, David Rybach, Sean Campbell, Arun
Narayanan, Trevor Strohman, Tara N. Sainath
- Abstract要約: 本稿では,ラベルコンテキストの量がモデルの精度に及ぼす影響と復号処理の効率に与える影響について検討する。
我々は、全文ベースラインと比較して単語誤り率(WER)を低下させることなく、トレーニング中の繰り返しニューラルネットワークトランスデューサ(RNN-T)のコンテキストを従来の4つの単語ピースラベルに制限できることを見出しました。
- 参考スコア(独自算出の注目度): 43.388004364072174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models that condition the output label sequence on all previously
predicted labels have emerged as popular alternatives to conventional systems
for automatic speech recognition (ASR). Since unique label histories correspond
to distinct models states, such models are decoded using an approximate
beam-search process which produces a tree of hypotheses.
In this work, we study the influence of the amount of label context on the
model's accuracy, and its impact on the efficiency of the decoding process. We
find that we can limit the context of the recurrent neural network transducer
(RNN-T) during training to just four previous word-piece labels, without
degrading word error rate (WER) relative to the full-context baseline. Limiting
context also provides opportunities to improve the efficiency of the
beam-search process during decoding by removing redundant paths from the active
beam, and instead retaining them in the final lattice. This path-merging scheme
can also be applied when decoding the baseline full-context model through an
approximation. Overall, we find that the proposed path-merging scheme is
extremely effective allowing us to improve oracle WERs by up to 36% over the
baseline, while simultaneously reducing the number of model evaluations by up
to 5.3% without any degradation in WER.
- Abstract(参考訳): 従来の音声認識システム (ASR) の代替として, 前述したラベルの出力ラベル列を条件としたエンドツーエンドモデルが登場している。
ユニークなラベル履歴は異なるモデル状態に対応するため、そのようなモデルは仮説のツリーを生成する近似ビーム探索プロセスを用いて復号される。
本研究では,ラベルコンテキストの量がモデルの精度に及ぼす影響と,その復号処理の効率に与える影響について検討する。
我々は,学習中のリカレントニューラルネットワークトランスデューサ(rnn-t)のコンテキストを,フルコンテキストベースラインと比較して単語誤り率(wer)を低下させることなく,わずか4つのワードピースラベルに制限できることを見出した。
制限コンテキストはまた、アクティブビームからの冗長な経路を除去し、代わりに最終格子に保持することにより、デコード中のビーム探索プロセスの効率を改善する機会を提供する。
このパスマージスキームは、近似を通じてベースラインフルコンテキストモデルをデコードする場合にも適用できる。
全体として、提案されているパスマージスキームは、oracle werをベースラインよりも最大36%改善できる非常に効果的であると同時に、werを劣化させることなく、モデル評価を最大5.3%削減できることがわかった。
関連論文リスト
- An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation [97.3797716862478]
Word-level AutoCompletion (WLAC) は、コンピュータ支援翻訳における報奨だが挑戦的なタスクである。
既存の作業は、入力コンテキストの隠れベクターを対応するラベルにマッピングするニューラルネットワークに基づく分類モデルを通じて、このタスクに対処する。
そこで本研究では,WLACのエネルギーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:07:19Z) - Self-consistent context aware conformer transducer for speech recognition [0.06008132390640294]
ニューラルネットワークアーキテクチャにおいて、再帰的なデータフローを順応的に処理する新しいニューラルネットワークモジュールを導入する。
本手法は, 単語誤り率に悪影響を及ぼすことなく, 稀な単語の認識精度を向上させる。
その結果,両手法の組み合わせにより,まれな単語を最大4.5倍の精度で検出できることが判明した。
論文 参考訳(メタデータ) (2024-02-09T18:12:11Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Interpolation-based Contrastive Learning for Few-Label Semi-Supervised
Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。
摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。
本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文 参考訳(メタデータ) (2022-02-24T06:00:05Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Uncertainty-Aware Label Refinement for Sequence Labeling [47.67853514765981]
長期ラベル依存性をモデル化する新しい2段階ラベルデコードフレームワークを提案する。
ベースモデルはまずドラフトラベルを予測し、次に新しい2ストリーム自己アテンションモデルはこれらのドラフト予測を洗練します。
論文 参考訳(メタデータ) (2020-12-19T06:56:59Z) - Efficient minimum word error rate training of RNN-Transducer for
end-to-end speech recognition [21.65651608697333]
RNN-Transducer (RNN-T) のための新しい,効率的な最小単語誤り率 (MWER) トレーニング手法を提案する。
提案手法では,N-bestリストにおける各仮説に対する全てのアライメントの総和スコアを再計算する。
前向きアルゴリズムを用いて仮説確率スコアと後向き勾配を効率的に算出する。
論文 参考訳(メタデータ) (2020-07-27T18:33:35Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。