論文の概要: Less Is More: Improved RNN-T Decoding Using Limited Label Context and
Path Merging
- arxiv url: http://arxiv.org/abs/2012.06749v1
- Date: Sat, 12 Dec 2020 07:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 05:24:56.423907
- Title: Less Is More: Improved RNN-T Decoding Using Limited Label Context and
Path Merging
- Title(参考訳): Less is More: 限定ラベルコンテキストとパスマージによるRNN-Tデコードの改善
- Authors: Rohit Prabhavalkar, Yanzhang He, David Rybach, Sean Campbell, Arun
Narayanan, Trevor Strohman, Tara N. Sainath
- Abstract要約: 本稿では,ラベルコンテキストの量がモデルの精度に及ぼす影響と復号処理の効率に与える影響について検討する。
我々は、全文ベースラインと比較して単語誤り率(WER)を低下させることなく、トレーニング中の繰り返しニューラルネットワークトランスデューサ(RNN-T)のコンテキストを従来の4つの単語ピースラベルに制限できることを見出しました。
- 参考スコア(独自算出の注目度): 43.388004364072174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models that condition the output label sequence on all previously
predicted labels have emerged as popular alternatives to conventional systems
for automatic speech recognition (ASR). Since unique label histories correspond
to distinct models states, such models are decoded using an approximate
beam-search process which produces a tree of hypotheses.
In this work, we study the influence of the amount of label context on the
model's accuracy, and its impact on the efficiency of the decoding process. We
find that we can limit the context of the recurrent neural network transducer
(RNN-T) during training to just four previous word-piece labels, without
degrading word error rate (WER) relative to the full-context baseline. Limiting
context also provides opportunities to improve the efficiency of the
beam-search process during decoding by removing redundant paths from the active
beam, and instead retaining them in the final lattice. This path-merging scheme
can also be applied when decoding the baseline full-context model through an
approximation. Overall, we find that the proposed path-merging scheme is
extremely effective allowing us to improve oracle WERs by up to 36% over the
baseline, while simultaneously reducing the number of model evaluations by up
to 5.3% without any degradation in WER.
- Abstract(参考訳): 従来の音声認識システム (ASR) の代替として, 前述したラベルの出力ラベル列を条件としたエンドツーエンドモデルが登場している。
ユニークなラベル履歴は異なるモデル状態に対応するため、そのようなモデルは仮説のツリーを生成する近似ビーム探索プロセスを用いて復号される。
本研究では,ラベルコンテキストの量がモデルの精度に及ぼす影響と,その復号処理の効率に与える影響について検討する。
我々は,学習中のリカレントニューラルネットワークトランスデューサ(rnn-t)のコンテキストを,フルコンテキストベースラインと比較して単語誤り率(wer)を低下させることなく,わずか4つのワードピースラベルに制限できることを見出した。
制限コンテキストはまた、アクティブビームからの冗長な経路を除去し、代わりに最終格子に保持することにより、デコード中のビーム探索プロセスの効率を改善する機会を提供する。
このパスマージスキームは、近似を通じてベースラインフルコンテキストモデルをデコードする場合にも適用できる。
全体として、提案されているパスマージスキームは、oracle werをベースラインよりも最大36%改善できる非常に効果的であると同時に、werを劣化させることなく、モデル評価を最大5.3%削減できることがわかった。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Interpolation-based Contrastive Learning for Few-Label Semi-Supervised
Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。
摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。
本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文 参考訳(メタデータ) (2022-02-24T06:00:05Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Uncertainty-Aware Label Refinement for Sequence Labeling [47.67853514765981]
長期ラベル依存性をモデル化する新しい2段階ラベルデコードフレームワークを提案する。
ベースモデルはまずドラフトラベルを予測し、次に新しい2ストリーム自己アテンションモデルはこれらのドラフト予測を洗練します。
論文 参考訳(メタデータ) (2020-12-19T06:56:59Z) - Efficient minimum word error rate training of RNN-Transducer for
end-to-end speech recognition [21.65651608697333]
RNN-Transducer (RNN-T) のための新しい,効率的な最小単語誤り率 (MWER) トレーニング手法を提案する。
提案手法では,N-bestリストにおける各仮説に対する全てのアライメントの総和スコアを再計算する。
前向きアルゴリズムを用いて仮説確率スコアと後向き勾配を効率的に算出する。
論文 参考訳(メタデータ) (2020-07-27T18:33:35Z) - Active Learning on Attributed Graphs via Graph Cognizant Logistic
Regression and Preemptive Query Generation [37.742218733235084]
本稿では,属性グラフにおけるノード分類処理のための新しいグラフベース能動学習アルゴリズムを提案する。
提案アルゴリズムは,線形化グラフ畳み込みニューラルネットワーク(GCN)と等価なグラフ認識ロジスティック回帰を用いて,予測フェーズの誤差低減を最大化する。
5つの公開ベンチマークデータセットで実験を行い、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-07-09T18:00:53Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。