論文の概要: Globally Normalising the Transducer for Streaming Speech Recognition
- arxiv url: http://arxiv.org/abs/2307.10975v1
- Date: Thu, 20 Jul 2023 16:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:20:04.635983
- Title: Globally Normalising the Transducer for Streaming Speech Recognition
- Title(参考訳): ストリーミング音声認識のためのトランスデューサのグローバル正規化
- Authors: Rogier van Dalen
- Abstract要約: Transducerは入力シーケンスを横切ると出力ラベルシーケンスを生成する。
ストリーミングモードでは、完全な入力を見る前に部分的な仮説を生成する。
ストリーミングモードでは、Transducerには数学的欠陥があり、単にモデルが心を変える能力を制限するだけである。
本稿では、損失関数を近似し、グローバル正規化を最先端のストリーミングモデルに適用することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Transducer (e.g. RNN-Transducer or Conformer-Transducer) generates an
output label sequence as it traverses the input sequence. It is straightforward
to use in streaming mode, where it generates partial hypotheses before the
complete input has been seen. This makes it popular in speech recognition.
However, in streaming mode the Transducer has a mathematical flaw which, simply
put, restricts the model's ability to change its mind. The fix is to replace
local normalisation (e.g. a softmax) with global normalisation, but then the
loss function becomes impossible to evaluate exactly. A recent paper proposes
to solve this by approximating the model, severely degrading performance.
Instead, this paper proposes to approximate the loss function, allowing global
normalisation to apply to a state-of-the-art streaming model. Global
normalisation reduces its word error rate by 9-11% relative, closing almost
half the gap between streaming and lookahead mode.
- Abstract(参考訳): Transducer(例えばRNN-TransducerやConformer-Transducer)は入力シーケンスを横切ると出力ラベルシーケンスを生成する。
ストリーミングモードで使うのは簡単で、完全な入力を見る前に部分的な仮説を生成する。
これは音声認識で人気がある。
しかし、ストリーミングモードでは、Transducerには数学的欠陥があり、単にモデルが心を変える能力を制限するだけである。
修正は局所正規化(例えばsoftmax)をグローバル正規化に置き換えることだが、損失関数を正確に評価することは不可能になる。
近年の論文では,モデルを近似し,性能を著しく低下させることにより,この問題を解決することを提案する。
本稿では,損失関数を近似し,最先端のストリーミングモデルにグローバル正規化を適用することを提案する。
グローバル正規化は、ワードエラー率を9-11%削減し、ストリーミングとルックアヘッドモードのほぼ半分を閉じる。
関連論文リスト
- A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer [3.2634122554914002]
拡散に基づくボコーダはサンプリングに必要な多くのステップのために遅いと批判されている。
本稿では,目標がプロセスの進行時間ステップの異なる出力となる設定を提案する。
提案手法は競争時間帯に高忠実度音声を生成することを示す。
論文 参考訳(メタデータ) (2023-09-18T10:35:27Z) - Reducing the gap between streaming and non-streaming Transducer-based
ASR by adaptive two-stage knowledge distillation [19.669543120766658]
本研究では,隠れ層学習と出力層学習を組み合わせた2段階の知識蒸留手法を提案する。
ワードエラー率を19%削減し、最初のトークンに対する応答をLibriSpeech corpusのオリジナルストリーミングモデルと比較して高速化した。
論文 参考訳(メタデータ) (2023-06-27T03:11:21Z) - Global Normalization for Streaming Speech Recognition in a Modular
Framework [14.958827687865075]
音声認識におけるラベルバイアス問題に対処するためのGNAT(Globally Normalized Autoregressive Transducer)を提案する。
グローバルな正規化モデルに切り替えることで、ストリーミングと非ストリーミング音声認識モデルの単語誤り率ギャップを大幅に削減することができる。
論文 参考訳(メタデータ) (2022-05-26T23:34:21Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Learning with Noisy Labels via Sparse Regularization [76.31104997491695]
ノイズの多いラベルで学習することは、正確なディープニューラルネットワークをトレーニングするための重要なタスクである。
クロスエントロピー(Cross Entropy, CE)など、一般的に使われている損失関数は、ノイズラベルへの過度なオーバーフィットに悩まされている。
我々は, スパース正規化戦略を導入し, ワンホット制約を近似する。
論文 参考訳(メタデータ) (2021-07-31T09:40:23Z) - TransCrowd: Weakly-Supervised Crowd Counting with Transformer [56.84516562735186]
今回提案するTransCrowdは、Transformerに基づくシーケンス・ツー・カウントの観点から、監視の弱い群衆カウント問題を再構成する。
5つのベンチマークデータセットの実験は、提案されたTransCrowdが、弱い監視されたCNNベースのカウント方法すべてと比較して優れたパフォーマンスを達成することを示しています。
論文 参考訳(メタデータ) (2021-04-19T08:12:50Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。