論文の概要: Residual Energy-Based Models for End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2103.14152v1
- Date: Thu, 25 Mar 2021 22:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:53:09.765108
- Title: Residual Energy-Based Models for End-to-End Speech Recognition
- Title(参考訳): エンド・ツー・エンド音声認識のための残エネルギーモデル
- Authors: Qiujia Li, Yu Zhang, Bo Li, Liangliang Cao, Philip C. Woodland
- Abstract要約: 自己回帰型ASRモデルを補完するために残留エネルギーベースモデル(R-EBM)を提案する。
100hr LibriSpeechデータセットの実験では、R-EBMはワードエラー率(WER)を8.2%/6.7%削減できる。
自己教師付き学習(wav2vec 2.0)を用いた最先端モデルでは、R-EBMはWERと信頼性推定性能の両方を大幅に改善する。
- 参考スコア(独自算出の注目度): 26.852537542649866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models with auto-regressive decoders have shown impressive results
for automatic speech recognition (ASR). These models formulate the
sequence-level probability as a product of the conditional probabilities of all
individual tokens given their histories. However, the performance of locally
normalised models can be sub-optimal because of factors such as exposure bias.
Consequently, the model distribution differs from the underlying data
distribution. In this paper, the residual energy-based model (R-EBM) is
proposed to complement the auto-regressive ASR model to close the gap between
the two distributions. Meanwhile, R-EBMs can also be regarded as
utterance-level confidence estimators, which may benefit many downstream tasks.
Experiments on a 100hr LibriSpeech dataset show that R-EBMs can reduce the word
error rates (WERs) by 8.2%/6.7% while improving areas under precision-recall
curves of confidence scores by 12.6%/28.4% on test-clean/test-other sets.
Furthermore, on a state-of-the-art model using self-supervised learning
(wav2vec 2.0), R-EBMs still significantly improves both the WER and confidence
estimation performance.
- Abstract(参考訳): 自動回帰デコーダを用いたエンドツーエンドモデルでは,自動音声認識(ASR)の優れた結果が得られた。
これらのモデルは、全てのトークンの条件付き確率の積としてシーケンスレベル確率を定式化する。
しかし, 局所正規化モデルの性能は, 露光バイアスなどの要因により準最適である。
その結果、モデル分布は基礎となるデータ分布と異なる。
本稿では, 余剰エネルギーベースモデル(R-EBM)を提案し, 自己回帰型ASRモデルを補完し, 2つの分布間のギャップを埋める。
一方、R-EBMは発話レベルの信頼度推定器とみなすこともできる。
100hr LibriSpeechデータセットの実験では、R-EBMsは単語エラー率(WERs)を8.2%/6.7%削減でき、信頼性スコアの精度-リコール曲線の領域を12.6%/28.4%改善できる。
さらに、自己教師付き学習(wav2vec 2.0)を用いた最先端モデルでは、R-EBMはWERと信頼性推定性能の両方を著しく改善する。
関連論文リスト
- SASWISE-UE: Segmentation and Synthesis with Interpretable Scalable Ensembles for Uncertainty Estimation [6.082812294410541]
本稿では,医療深層学習モデルの解釈性向上を目的とした,効率的なサブモデルアンサンブルフレームワークを提案する。
不確実性マップを生成することにより、エンドユーザーがモデル出力の信頼性を評価することができる。
論文 参考訳(メタデータ) (2024-11-08T04:37:55Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Wavelet-Based Hybrid Machine Learning Model for Out-of-distribution
Internet Traffic Prediction [3.689539481706835]
本稿では,eXtreme Gradient Boosting, Light Gradient Boosting Machine, Gradient Descent, Gradient Boosting Regressor, Cat Regressorを用いた機械学習性能について検討する。
本稿では,ウェーブレット分解を統合したハイブリッド機械学習モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T14:34:42Z) - Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-07T10:44:27Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。