論文の概要: Global Normalization for Streaming Speech Recognition in a Modular
Framework
- arxiv url: http://arxiv.org/abs/2205.13674v1
- Date: Thu, 26 May 2022 23:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 09:44:42.124705
- Title: Global Normalization for Streaming Speech Recognition in a Modular
Framework
- Title(参考訳): モジュール型フレームワークにおけるストリーム音声認識のグローバル正規化
- Authors: Ehsan Variani, Ke Wu, Michael Riley, David Rybach, Matt Shannon, Cyril
Allauzen
- Abstract要約: 音声認識におけるラベルバイアス問題に対処するためのGNAT(Globally Normalized Autoregressive Transducer)を提案する。
グローバルな正規化モデルに切り替えることで、ストリーミングと非ストリーミング音声認識モデルの単語誤り率ギャップを大幅に削減することができる。
- 参考スコア(独自算出の注目度): 14.958827687865075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Globally Normalized Autoregressive Transducer (GNAT) for
addressing the label bias problem in streaming speech recognition. Our solution
admits a tractable exact computation of the denominator for the sequence-level
normalization. Through theoretical and empirical results, we demonstrate that
by switching to a globally normalized model, the word error rate gap between
streaming and non-streaming speech-recognition models can be greatly reduced
(by more than 50\% on the Librispeech dataset). This model is developed in a
modular framework which encompasses all the common neural speech recognition
models. The modularity of this framework enables controlled comparison of
modelling choices and creation of new models.
- Abstract(参考訳): 音声認識におけるラベルバイアス問題に対処するためのGNAT(Globally Normalized Autoregressive Transducer)を提案する。
この解は、シーケンスレベル正規化のための分母の扱いやすい正確な計算を許容する。
理論的および実証的な結果を通じて,グローバル正規化モデルに切り替えることで,ストリーミングモデルと非ストリーミング音声認識モデルの単語誤り率ギャップを大幅に低減できることを示した(librispeechデータセットでは50\%以上減少)。
このモデルは、一般的なニューラル音声認識モデルをすべて包含するモジュラーフレームワークで開発された。
このフレームワークのモジュラリティは、モデル選択の制御された比較と新しいモデルの作成を可能にする。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Research on an improved Conformer end-to-end Speech Recognition Model
with R-Drop Structure [3.3659128541342276]
本研究では,新しいコンフォーマーに基づく音声認識モデル"Conformer-R"を提案する。
モデルは局所的およびグローバルな音声情報の両方を効果的にモデル化でき、R-drop構造を用いることで過度な適合を低減できる。
論文 参考訳(メタデータ) (2023-06-14T08:01:23Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Equivalence of Segmental and Neural Transducer Modeling: A Proof of
Concept [56.46135010588918]
RNN-Transducerモデルとセグメントモデル(直接HMM)の広く使われているクラスが等価であることを証明する。
空白確率はセグメント長確率に変換され,その逆も示された。
論文 参考訳(メタデータ) (2021-04-13T11:20:48Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Decoupling Global and Local Representations via Invertible Generative
Flows [47.366299240738094]
標準画像ベンチマークによる実験結果から, 密度推定, 画像生成, 教師なし表現学習の観点から, モデルの有効性が示された。
この研究は、確率に基づく目的を持つ生成モデルが疎結合表現を学習でき、明示的な監督を必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-12T03:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。