論文の概要: The Performance Evaluation of Attention-Based Neural ASR under Mixed
Speech Input
- arxiv url: http://arxiv.org/abs/2108.01245v1
- Date: Tue, 3 Aug 2021 02:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 19:48:09.326724
- Title: The Performance Evaluation of Attention-Based Neural ASR under Mixed
Speech Input
- Title(参考訳): 混合音声入力における注意に基づくニューラルASRの性能評価
- Authors: Bradley He, Martin Radfar
- Abstract要約: 音声信号の混合を、リステン、アテンダント、スペル(LAS)として知られる、一般的な注目に基づくニューラルネットワークASRに提示する。
特に、予測音素とは何かという2つの音素がいつ混合されるのかを詳細に検討する。
実験の結果,混合音素信号が提示された場合,高い精度の音素を予測できる傾向が認められた。
- 参考スコア(独自算出の注目度): 1.776746672434207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to evaluate the performance of the attention based neural ASR under
noisy conditions, the current trend is to present hours of various noisy speech
data to the model and measure the overall word/phoneme error rate (W/PER). In
general, it is unclear how these models perform when exposed to a cocktail
party setup in which two or more speakers are active. In this paper, we present
the mixtures of speech signals to a popular attention-based neural ASR, known
as Listen, Attend, and Spell (LAS), at different target-to-interference ratio
(TIR) and measure the phoneme error rate. In particular, we investigate in
details when two phonemes are mixed what will be the predicted phoneme; in this
fashion we build a model in which the most probable predictions for a phoneme
are given. We found a 65% relative increase in PER when LAS was presented with
mixed speech signals at TIR = 0 dB and the performance approaches the unmixed
scenario at TIR = 30 dB. Our results show the model, when presented with mixed
phonemes signals, tend to predict those that have higher accuracies during
evaluation of original phoneme signals.
- Abstract(参考訳): 雑音条件下でのアテンションベースニューラルASRの性能を評価するため、現在の傾向は、様々なノイズのある音声データをモデルに提示し、全体的な単語/音素誤り率(W/PER)を測定することである。
一般に、2人以上の話者が活動するカクテルパーティーのセットアップでこれらのモデルがどのように機能するかは不明である。
本稿では、音声信号の混合を、リステン、アテンド、スペル(LAS)として知られる一般的な注目に基づくニューラルネットワークに、異なるターゲット対干渉比(TIR)で提示し、音素誤り率を測定する。
特に、2つの音素がいつ混合され、予測される音素になるのかを詳細に調べ、この方法では、音素の最も可能性の高い予測が与えられるモデルを構築します。
TIR = 0 dB で LAS を混合音声信号で提示すると,PER は 65% 増加し,その性能は TIR = 30 dB で未混合シナリオに近づいた。
その結果,混合音素信号で提示されたモデルでは,元の音素信号の評価において高い確率を持つモデルが予測される傾向がみられた。
関連論文リスト
- AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Predicting pairwise preferences between TTS audio stimuli using parallel
ratings data and anti-symmetric twin neural networks [24.331098975217596]
本稿では, 対の波形とそれに対応する選好スコアに基づいて学習した, 反対称双対ニューラルネットワークに基づくモデルを提案する。
大規模なトレーニングセットを得るために,MUSHRAテストから聴取者の評価を,ペア内の刺激が他よりも高く評価された頻度を反映した値に変換する。
MOSスコアの予測を訓練した最先端モデルと比較した。
論文 参考訳(メタデータ) (2022-09-22T13:34:22Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。