論文の概要: Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition
- arxiv url: http://arxiv.org/abs/2411.17537v1
- Date: Tue, 26 Nov 2024 15:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:30:41.705759
- Title: Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition
- Title(参考訳): トランスデューサを用いたストリーミング音声認識のための最大習熟に向けて
- Authors: Hyeonseung Lee, Ji Won Yoon, Sungsoo Kim, Nam Soo Kim,
- Abstract要約: 本稿では,トランスデューサニューラルネットワークを用いた音声認識(ASR)のストリーミング手法を提案する。
従来のフレームワークでは、ストリーミングトランスデューサモデルは、非ストリーミング再帰規則に基づく可能性関数の最大化のために訓練されている。
FoCCEトレーニングにより,ストリーミングトランスデューサの精度が向上することを示す。
- 参考スコア(独自算出の注目度): 13.189571090038674
- License:
- Abstract: Transducer neural networks have emerged as the mainstream approach for streaming automatic speech recognition (ASR), offering state-of-the-art performance in balancing accuracy and latency. In the conventional framework, streaming transducer models are trained to maximize the likelihood function based on non-streaming recursion rules. However, this approach leads to a mismatch between training and inference, resulting in the issue of deformed likelihood and consequently suboptimal ASR accuracy. We introduce a mathematical quantification of the gap between the actual likelihood and the deformed likelihood, namely forward variable causal compensation (FoCC). We also present its estimator, FoCCE, as a solution to estimate the exact likelihood. Through experiments on the LibriSpeech dataset, we show that FoCCE training improves the accuracy of the streaming transducers.
- Abstract(参考訳): トランスデューサニューラルネットワークは、精度とレイテンシのバランスをとる上で、最先端のパフォーマンスを提供する、ストリーミング自動音声認識(ASR)の主流のアプローチとして登場した。
従来のフレームワークでは、ストリーミングトランスデューサモデルは、非ストリーミング再帰規則に基づく可能性関数の最大化のために訓練されている。
しかし、このアプローチはトレーニングと推論のミスマッチにつながり、変形確率の問題と、その結果、最適ASRの精度が問題となる。
本稿では,実際の可能性と変形確率のギャップ,すなわちフォワード変数因果補償(FoCC)の数学的定量化を導入する。
また、その推定器であるFoCCEを、正確な確率を推定するための解として提示する。
LibriSpeechデータセットの実験を通して、FoCCEトレーニングがストリーミングトランスデューサの精度を向上させることを示す。
関連論文リスト
- Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Adaptive mitigation of time-varying quantum noise [0.1227734309612871]
現在の量子コンピュータは、高いエラー率の非定常ノイズチャネルに悩まされている。
チャネル条件の変化に応じて量子ノイズを学習・緩和するベイズ推論に基づく適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-16T01:33:07Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - A Variational Bayesian Approach to Learning Latent Variables for
Acoustic Knowledge Transfer [55.20627066525205]
本稿では,ディープニューラルネットワーク(DNN)モデルにおける潜伏変数の分布を学習するための変分ベイズ(VB)アプローチを提案する。
我々の提案するVBアプローチは,ターゲットデバイスにおいて良好な改善が得られ,しかも,13の最先端知識伝達アルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2021-10-16T15:54:01Z) - A Light-weight contextual spelling correction model for customizing
transducer-based speech recognition systems [42.05399301143457]
本稿では,文脈関連認識誤りを補正するために,軽量な文脈スペル補正モデルを提案する。
実験の結果,約50%の単語誤り率削減でベースラインASRモデルの性能が向上した。
このモデルはまた、トレーニング中に見られない語彙外用語に対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-17T08:14:37Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。