論文の概要: On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era
- arxiv url: http://arxiv.org/abs/2104.10121v1
- Date: Tue, 20 Apr 2021 17:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:32:23.273263
- Title: On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era
- Title(参考訳): 単語誤り率の音響言語的音声感情認識に与える影響について:深層学習時代の更新
- Authors: Shahin Amiriparian (1), Artem Sokolov (2,3), Ilhan Aslan (2), Lukas
Christ (1), Maurice Gerczuk (1), Tobias H\"ubner (1), Dmitry Lamanov (2),
Manuel Milling (1), Sandra Ottl (1), Ilya Poduremennykh (2), Evgeniy Shuranov
(2,4), Bj\"orn W. Schuller (1,5) ((1) EIHW -- Chair of Embedded Intelligence
for Health Care and Wellbeing, University of Augsburg, Germany, (2) Huawei
Technologies, (3) HSE University, Nizhniy Novgorod, Russia, (4) ITMO
University, Saint Petersburg, Russia)
- Abstract要約: 3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text encodings from automatic speech recognition (ASR) transcripts and audio
representations have shown promise in speech emotion recognition (SER) ever
since. Yet, it is challenging to explain the effect of each information stream
on the SER systems. Further, more clarification is required for analysing the
impact of ASR's word error rate (WER) on linguistic emotion recognition per se
and in the context of fusion with acoustic information exploitation in the age
of deep ASR systems. In order to tackle the above issues, we create transcripts
from the original speech by applying three modern ASR systems, including an
end-to-end model trained with recurrent neural network-transducer loss, a model
with connectionist temporal classification loss, and a wav2vec framework for
self-supervised learning. Afterwards, we use pre-trained textual models to
extract text representations from the ASR outputs and the gold standard. For
extraction and learning of acoustic speech features, we utilise openSMILE,
openXBoW, DeepSpectrum, and auDeep. Finally, we conduct decision-level fusion
on both information streams -- acoustics and linguistics. Using the best
development configuration, we achieve state-of-the-art unweighted average
recall values of $73.6\,\%$ and $73.8\,\%$ on the speaker-independent
development and test partitions of IEMOCAP, respectively.
- Abstract(参考訳): 自動音声認識(ASR)によるテキストエンコーディングと音声表現は、それ以来、音声感情認識(SER)において有望であることが示されている。
しかし,各情報ストリームがサーシステムに与える影響を説明することは困難である。
さらに、ASRの単語誤り率(WER)が言語的感情認識に与える影響や、深層ASRシステムにおける音響情報利用との融合の文脈でより明確化する必要がある。
上記の問題に対処するために,リカレントニューラルネットワーク-トランスデューサ損失を訓練したエンドツーエンドモデル,コネクショニスト時間的分類損失モデル,自己教師付き学習のためのwav2vecフレームワークを含む,3つの現代的なasrシステムを適用して,原音声からの書き起こしを作成する。
その後、事前訓練されたテキストモデルを用いて、ASR出力と金標準からテキスト表現を抽出する。
音声特徴の抽出と学習にはopenSMILE, openXBoW, DeepSpectrum, auDeepを利用する。
最後に、音響学と言語学の両方で意思決定レベルの融合を行う。
最高の開発構成を用いて、IEMOCAPの話者に依存しない開発とテストパーティションにおいて、最先端の未処理の平均リコール値は7.3.6\,\%$と7.8\,\%$を達成する。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - End-to-end speech-to-dialog-act recognition [38.58540444573232]
本稿では,音声を直接ダイアログに変換するエンド・ツー・エンドのモデルを提案する。
提案モデルでは,対話行動認識ネットワークは,その潜在層において,音声から単語へのASRモデルと結合する。
ネットワーク全体がエンドツーエンドで微調整されている。
論文 参考訳(メタデータ) (2020-04-23T18:44:27Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。