論文の概要: BayesSpeech: A Bayesian Transformer Network for Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2301.11276v1
- Date: Mon, 16 Jan 2023 16:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-29 13:12:55.922344
- Title: BayesSpeech: A Bayesian Transformer Network for Automatic Speech
Recognition
- Title(参考訳): BayesSpeech:自動音声認識のためのベイズ変圧器ネットワーク
- Authors: Will Rieger
- Abstract要約: 近年のエンド・ツー・エンド・エンド・ディープ・ラーニング・モデルによる開発は, 音声認識タスクにおけるRNN(Recurrent Neural Networks)の現状よりも, ほぼ, あるいはそれに近い性能を示すことが示されている。
重みのばらつきの導入によって,LibriSpeech-960のトレーニング時間と最先端性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments using End-to-End Deep Learning models have been shown to
have near or better performance than state of the art Recurrent Neural Networks
(RNNs) on Automatic Speech Recognition tasks. These models tend to be lighter
weight and require less training time than traditional RNN-based approaches.
However, these models take frequentist approach to weight training. In theory,
network weights are drawn from a latent, intractable probability distribution.
We introduce BayesSpeech for end-to-end Automatic Speech Recognition.
BayesSpeech is a Bayesian Transformer Network where these intractable
posteriors are learned through variational inference and the local
reparameterization trick without recurrence. We show how the introduction of
variance in the weights leads to faster training time and near state-of-the-art
performance on LibriSpeech-960.
- Abstract(参考訳): エンド・ツー・エンドのディープラーニングモデルを用いた最近の開発は、自動音声認識タスクにおけるart recurrent neural networks(rnn)の状態よりもほぼ、あるいはより優れた性能を持つことが示されている。
これらのモデルは軽量であり、従来のRNNベースのアプローチよりもトレーニング時間が少ない傾向にある。
しかし、これらのモデルは重みトレーニングに頻繁にアプローチする。
理論上、ネットワーク重みは潜在的で難解な確率分布から引き出される。
エンドツーエンド自動音声認識のためのBayesSpeechを提案する。
bayesspeechはベイズ変圧器ネットワークであり、これらの難解な後方は変分推論と局所再パラメータ化トリックによって再帰なく学習される。
重みのばらつきの導入によって,LibriSpeech-960のトレーニング時間と最先端性能が向上することを示す。
関連論文リスト
- Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals [11.939409227407769]
DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
論文 参考訳(メタデータ) (2021-02-11T23:11:22Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z) - Leveraging End-to-End Speech Recognition with Neural Architecture Search [0.0]
ニューラルネットワーク最適化により,ディープスピーチモデルの精度を大幅に向上できることを示す。
提案手法は, TIMITコーパスにおける単語誤り率(WER)の7%, TIMITコーパスにおける13%の電話誤り率(PER)の検定誤差を, 最先端の結果と同等に達成する。
論文 参考訳(メタデータ) (2019-12-11T08:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。