論文の概要: ASR and Emotional Speech: A Word-Level Investigation of the Mutual
Impact of Speech and Emotion Recognition
- arxiv url: http://arxiv.org/abs/2305.16065v2
- Date: Sun, 28 May 2023 17:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 11:08:43.218179
- Title: ASR and Emotional Speech: A Word-Level Investigation of the Mutual
Impact of Speech and Emotion Recognition
- Title(参考訳): asrと感情音声 : 音声と感情認識の相互影響に関する単語レベルでの検討
- Authors: Yuanchao Li, Zeyu Zhao, Ondrej Klejch, Peter Bell, Catherine Lai
- Abstract要約: 本研究では、感情コーパス上でのASR性能を分析し、感情音声におけるASR(Automatic Speech Recognition)の効果を分析する。
単語誤り率の増大を考慮したテキストベースの音声感情認識を行い,ASRがSERに与える影響について検討する。
- 参考スコア(独自算出の注目度): 12.437708240244756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Speech Emotion Recognition (SER), textual data is often used alongside
audio signals to address their inherent variability. However, the reliance on
human annotated text in most research hinders the development of practical SER
systems. To overcome this challenge, we investigate how Automatic Speech
Recognition (ASR) performs on emotional speech by analyzing the ASR performance
on emotion corpora and examining the distribution of word errors and confidence
scores in ASR transcripts to gain insight into how emotion affects ASR. We
utilize four ASR systems, namely Kaldi ASR, wav2vec2, Conformer, and Whisper,
and three corpora: IEMOCAP, MOSI, and MELD to ensure generalizability.
Additionally, we conduct text-based SER on ASR transcripts with increasing word
error rates to investigate how ASR affects SER. The objective of this study is
to uncover the relationship and mutual impact of ASR and SER, in order to
facilitate ASR adaptation to emotional speech and the use of SER in real world.
- Abstract(参考訳): 音声感情認識(SER: Speech Emotion Recognition)では、テキストデータは音声信号とともに、その固有の変動に対処するためにしばしば使用される。
しかし、ほとんどの研究における注釈付きテキストへの依存は、実用的なSERシステムの開発を妨げる。
この課題を克服するために、感情コーパス上でのASRパフォーマンスを分析し、ASR文字中の単語誤りと信頼スコアの分布を調べ、感情がASRにどう影響するかを把握し、感情音声認識(ASR)が感情音声にどのように作用するかを検討する。
我々は、Kaldi ASR、wav2vec2、Conformer、Whisperの4つのASRシステムと、IEMOCAP、MOSI、MELDの3つのコーパスを用いて、一般化性を確保する。
さらに、テキストベースのSERを単語誤り率を増大させ、ASRがSERに与える影響を調査する。
本研究の目的は,情緒的音声へのASR適応と実世界におけるSERの利用を促進するために,ASRとSERの関係と相互影響を明らかにすることである。
関連論文リスト
- Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。
本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:59:25Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review [0.0]
我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。
また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
論文 参考訳(メタデータ) (2022-11-17T13:15:58Z) - Can Visual Context Improve Automatic Speech Recognition for an Embodied
Agent? [3.7311680121118345]
本稿では,視覚的コンテキストを取り入れた新しいデコーダバイアス手法を提案する。
修正されていないASRシステムからWERを59%削減する。
論文 参考訳(メタデータ) (2022-10-21T11:16:05Z) - Fusing ASR Outputs in Joint Training for Speech Emotion Recognition [14.35400087127149]
共同学習音声認識(SER)のためのパイプラインに自動音声認識(ASR)出力を融合する手法を提案する。
共同ASR-SERトレーニングでは、階層的コアテンション融合アプローチを用いて、ASRとテキストの出力の両方を組み込むことで、SERの性能が向上する。
また,IEMOCAPにおける単語誤り率解析や,ASRとSERの関係をよりよく理解するために,Wav2vec 2.0モデルの層差解析も提案する。
論文 参考訳(メタデータ) (2021-10-29T11:21:17Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。