論文の概要: Real-time Speech Emotion Recognition Based on Syllable-Level Feature
Extraction
- arxiv url: http://arxiv.org/abs/2204.11382v2
- Date: Tue, 26 Apr 2022 12:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 10:28:24.302114
- Title: Real-time Speech Emotion Recognition Based on Syllable-Level Feature
Extraction
- Title(参考訳): 音素レベル特徴抽出に基づくリアルタイム音声感情認識
- Authors: Abdul Rehman, Zhen-Tao Liu, Min Wu, Wei-Hua Cao, and Cheng-Shan Jiang
- Abstract要約: 音節レベルの特徴を分解・分析するリダミストアプローチに基づく音声感情認識システムを提案する。
音節レベルのフォルマントの一連の特徴を抽出し、各音節の予測を行う単一の隠蔽層ニューラルネットワークに入力する。
実験によると、この手法は、最先端のクロスコーパスでIEが47.6%、MIが56.2%の精度で予測しながら、リアルタイムのレイテンシをアーカイブする。
- 参考スコア(独自算出の注目度): 7.0019575386261375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition systems have high prediction latency because of
the high computational requirements for deep learning models and low
generalizability mainly because of the poor reliability of emotional
measurements across multiple corpora. To solve these problems, we present a
speech emotion recognition system based on a reductionist approach of
decomposing and analyzing syllable-level features. Mel-spectrogram of an audio
stream is decomposed into syllable-level components, which are then analyzed to
extract statistical features. The proposed method uses formant attention,
noise-gate filtering, and rolling normalization contexts to increase feature
processing speed and tolerance to adversity. A set of syllable-level formant
features is extracted and fed into a single hidden layer neural network that
makes predictions for each syllable as opposed to the conventional approach of
using a sophisticated deep learner to make sentence-wide predictions. The
syllable level predictions help to achieve the real-time latency and lower the
aggregated error in utterance level cross-corpus predictions. The experiments
on IEMOCAP (IE), MSP-Improv (MI), and RAVDESS (RA) databases show that the
method archives real-time latency while predicting with state-of-the-art
cross-corpus unweighted accuracy of 47.6% for IE to MI and 56.2% for MI to IE.
- Abstract(参考訳): 音声感情認識システムは、ディープラーニングモデルに対する高い計算要求と、主に複数のコーパスにわたる感情計測の信頼性の低いため、高い予測遅延を有する。
そこで本研究では,音節レベルの特徴を分解・分析する還元主義的アプローチに基づく音声感情認識システムを提案する。
音声ストリームのメルスペクトログラムは音節レベルのコンポーネントに分解され、統計的特徴を抽出するために分析される。
提案手法では, フォルマント注意, ノイズゲートフィルタリング, ローリング正規化コンテキストを用いて, 特徴処理速度と可逆性の向上を図る。
一組の音節レベルのフォルマント特徴を抽出し、音節ごとの予測を行う単一の階層ニューラルネットワークに入力し、洗練されたディープラーニングを用いて文幅の予測を行う従来のアプローチとは対照的に、音節ごとの予測を行う。
音節レベルの予測は、リアルタイムのレイテンシの実現と、発話レベルのクロスコーパス予測における集約エラーの低減に役立つ。
IEMOCAP (IE) や MSP-Improv (MI) や RAVDESS (RA) のデータベースでの実験では、最先端のクロスコーパスでIEからMIに47.6%、MIからIEに56.2%の精度で予測しながら、リアルタイムのレイテンシをアーカイブしている。
関連論文リスト
- EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。