論文の概要: Real-time Speech Emotion Recognition Based on Syllable-Level Feature
Extraction
- arxiv url: http://arxiv.org/abs/2204.11382v2
- Date: Tue, 26 Apr 2022 12:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 10:28:24.302114
- Title: Real-time Speech Emotion Recognition Based on Syllable-Level Feature
Extraction
- Title(参考訳): 音素レベル特徴抽出に基づくリアルタイム音声感情認識
- Authors: Abdul Rehman, Zhen-Tao Liu, Min Wu, Wei-Hua Cao, and Cheng-Shan Jiang
- Abstract要約: 音節レベルの特徴を分解・分析するリダミストアプローチに基づく音声感情認識システムを提案する。
音節レベルのフォルマントの一連の特徴を抽出し、各音節の予測を行う単一の隠蔽層ニューラルネットワークに入力する。
実験によると、この手法は、最先端のクロスコーパスでIEが47.6%、MIが56.2%の精度で予測しながら、リアルタイムのレイテンシをアーカイブする。
- 参考スコア(独自算出の注目度): 7.0019575386261375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition systems have high prediction latency because of
the high computational requirements for deep learning models and low
generalizability mainly because of the poor reliability of emotional
measurements across multiple corpora. To solve these problems, we present a
speech emotion recognition system based on a reductionist approach of
decomposing and analyzing syllable-level features. Mel-spectrogram of an audio
stream is decomposed into syllable-level components, which are then analyzed to
extract statistical features. The proposed method uses formant attention,
noise-gate filtering, and rolling normalization contexts to increase feature
processing speed and tolerance to adversity. A set of syllable-level formant
features is extracted and fed into a single hidden layer neural network that
makes predictions for each syllable as opposed to the conventional approach of
using a sophisticated deep learner to make sentence-wide predictions. The
syllable level predictions help to achieve the real-time latency and lower the
aggregated error in utterance level cross-corpus predictions. The experiments
on IEMOCAP (IE), MSP-Improv (MI), and RAVDESS (RA) databases show that the
method archives real-time latency while predicting with state-of-the-art
cross-corpus unweighted accuracy of 47.6% for IE to MI and 56.2% for MI to IE.
- Abstract(参考訳): 音声感情認識システムは、ディープラーニングモデルに対する高い計算要求と、主に複数のコーパスにわたる感情計測の信頼性の低いため、高い予測遅延を有する。
そこで本研究では,音節レベルの特徴を分解・分析する還元主義的アプローチに基づく音声感情認識システムを提案する。
音声ストリームのメルスペクトログラムは音節レベルのコンポーネントに分解され、統計的特徴を抽出するために分析される。
提案手法では, フォルマント注意, ノイズゲートフィルタリング, ローリング正規化コンテキストを用いて, 特徴処理速度と可逆性の向上を図る。
一組の音節レベルのフォルマント特徴を抽出し、音節ごとの予測を行う単一の階層ニューラルネットワークに入力し、洗練されたディープラーニングを用いて文幅の予測を行う従来のアプローチとは対照的に、音節ごとの予測を行う。
音節レベルの予測は、リアルタイムのレイテンシの実現と、発話レベルのクロスコーパス予測における集約エラーの低減に役立つ。
IEMOCAP (IE) や MSP-Improv (MI) や RAVDESS (RA) のデータベースでの実験では、最先端のクロスコーパスでIEからMIに47.6%、MIからIEに56.2%の精度で予測しながら、リアルタイムのレイテンシをアーカイブしている。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。