論文の概要: Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription
- arxiv url: http://arxiv.org/abs/2004.10799v3
- Date: Fri, 7 Aug 2020 19:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:39:05.376807
- Title: Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription
- Title(参考訳): CHiME-6 Dinner Party 転写のための競合型エンドツーエンド音声認識に向けて
- Authors: Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov
- Abstract要約: 本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
- 参考スコア(独自算出の注目度): 73.66530509749305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While end-to-end ASR systems have proven competitive with the conventional
hybrid approach, they are prone to accuracy degradation when it comes to noisy
and low-resource conditions. In this paper, we argue that, even in such
difficult cases, some end-to-end approaches show performance close to the
hybrid baseline. To demonstrate this, we use the CHiME-6 Challenge data as an
example of challenging environments and noisy conditions of everyday speech. We
experimentally compare and analyze CTC-Attention versus RNN-Transducer
approaches along with RNN versus Transformer architectures. We also provide a
comparison of acoustic features and speech enhancements. Besides, we evaluate
the effectiveness of neural network language models for hypothesis re-scoring
in low-resource conditions. Our best end-to-end model based on RNN-Transducer,
together with improved beam search, reaches quality by only 3.8% WER abs. worse
than the LF-MMI TDNN-F CHiME-6 Challenge baseline. With the Guided Source
Separation based training data augmentation, this approach outperforms the
hybrid baseline system by 2.7% WER abs. and the end-to-end system best known
before by 25.7% WER abs.
- Abstract(参考訳): エンドツーエンドのASRシステムは従来のハイブリッドアプローチと競合することが証明されているが、ノイズや低リソース状態の場合には精度の低下が生じる。
本稿では,このような困難な場合においても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
これを実証するために,chime-6チャレンジデータを用いて,日常音声の課題環境と騒音環境の例を示す。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer アーキテクチャの比較と解析を行った。
また、音響的特徴と音声の強化の比較も行う。
また,低リソース条件下での仮説再構成におけるニューラルネットワーク言語モデルの有効性を評価する。
rnn-transducerに基づく最良エンド・ツー・エンドモデルとビームサーチの改善により、品質は3.8%向上した。
LF-MMI TDNN-F CHiME-6 チャレンジのベースラインよりも悪い。
ガイドドソース分離に基づくトレーニングデータ拡張により、このアプローチはハイブリッドベースラインシステムよりも2.7%のWER abs性能が向上する。
エンド・ツー・エンドのシステムは25.7%のWERで知られている。
関連論文リスト
- Hybrid Deep Convolutional Neural Networks Combined with Autoencoders And Augmented Data To Predict The Look-Up Table 2006 [2.082445711353476]
本研究では、自己エンコーダとデータ拡張技術により強化されたハイブリッドディープ畳み込みニューラルネットワーク(DCNN)モデルの開発について検討する。
オリジナルの入力機能を3つの異なるオートエンコーダ構成で拡張することにより、モデルの予測能力は大幅に改善された。
論文 参考訳(メタデータ) (2024-08-26T20:45:07Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition [18.83748866242237]
厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。
本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。
検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
論文 参考訳(メタデータ) (2022-02-17T09:17:58Z) - Novel Hybrid DNN Approaches for Speaker Verification in Emotional and
Stressful Talking Environments [1.0998375857698495]
この研究は、深層モデルと浅いアーキテクチャを組み合わせることで、新しいハイブリッド分類器を生み出した。
ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)、ディープニューラルネットワーク-ガウス混合モデル(DNN-GMM)、隠れマルコフモデル-ディープニューラルネットワーク(HMM-DNN)の4つの異なるハイブリッドモデルが利用された。
その結果、HMM-DNNは、EER(Equal error rate)およびAUC(Equal curve)評価指標で他の全てのハイブリッドモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-26T10:47:14Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - Improving RNN Transducer Based ASR with Auxiliary Tasks [21.60022481898402]
単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは、最近最先端の結果を実証した。
本研究では,リカレントニューラルネットワークトランスデューサ(RNN-T)が補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
論文 参考訳(メタデータ) (2020-11-05T21:46:32Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。