論文の概要: Emotion Recognition Using Speaker Cues
- arxiv url: http://arxiv.org/abs/2002.03566v1
- Date: Tue, 4 Feb 2020 08:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 03:43:46.326193
- Title: Emotion Recognition Using Speaker Cues
- Title(参考訳): 話者手がかりを用いた感情認識
- Authors: Ismail Shahin
- Abstract要約: 提案手法はアラビア語Emirati-accented speech databaseで男女15人を対象に評価されている。
2段階のアプローチに基づく平均感情認識精度は67.5%であり、それぞれ1段階のアプローチであるGMM、SVM、VQに基づいて61.4%、63.3%、64.5%、61.5%に達する。
- 参考スコア(独自算出の注目度): 2.322461721824713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research aims at identifying the unknown emotion using speaker cues. In
this study, we identify the unknown emotion using a two-stage framework. The
first stage focuses on identifying the speaker who uttered the unknown emotion,
while the next stage focuses on identifying the unknown emotion uttered by the
recognized speaker in the prior stage. This proposed framework has been
evaluated on an Arabic Emirati-accented speech database uttered by fifteen
speakers per gender. Mel-Frequency Cepstral Coefficients (MFCCs) have been used
as the extracted features and Hidden Markov Model (HMM) has been utilized as
the classifier in this work. Our findings demonstrate that emotion recognition
accuracy based on the two-stage framework is greater than that based on the
one-stage approach and the state-of-the-art classifiers and models such as
Gaussian Mixture Model (GMM), Support Vector Machine (SVM), and Vector
Quantization (VQ). The average emotion recognition accuracy based on the
two-stage approach is 67.5%, while the accuracy reaches to 61.4%, 63.3%, 64.5%,
and 61.5%, based on the one-stage approach, GMM, SVM, and VQ, respectively. The
achieved results based on the two-stage framework are very close to those
attained in subjective assessment by human listeners.
- Abstract(参考訳): 本研究の目的は、話者手がかりを用いて未知の感情を特定することである。
本研究では,2段階の枠組みを用いて未知の感情を同定する。
第1段階は未知の感情を発話する話者を特定することに焦点を当て、第2段階は認識された話者が前段で発する未知の感情を特定することに焦点を当てている。
提案手法はアラビア語Emirati-accented speech databaseで男女15人を対象に評価されている。
抽出した特徴としてMel-Frequency Cepstral Coefficients (MFCCs) が用いられ、本研究ではHidden Markov Model (HMM) が分類器として利用されている。
その結果,2段階の枠組みに基づく感情認識精度は,ガウス混合モデル (GMM) やサポートベクトルマシン (SVM) ,ベクトル量子化 (VQ) など,一段階のアプローチと最先端の分類器に基づくものよりも高いことがわかった。
2段階のアプローチに基づく平均感情認識精度は67.5%であり、それぞれ1段階のアプローチであるGMM、SVM、VQに基づいて61.4%、63.3%、64.5%、61.5%に達する。
2段階の枠組みに基づいて達成された結果は、人間の聴取者による主観的評価に非常に近い。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - The 6th Affective Behavior Analysis in-the-wild (ABAW) Competition [53.718777420180395]
本稿では,第6回ABAWコンペティションについて述べる。
第6回ABAWコンペティションは、人間の感情や行動を理解する上での現代の課題に対処する。
論文 参考訳(メタデータ) (2024-02-29T16:49:38Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Persian Speech Emotion Recognition by Fine-Tuning Transformers [1.0152838128195467]
本稿では,2つのモデルについて述べる。1つはスペクトログラムに基づくもので,もう1つは音声自体に基づいて,shEMOデータセットを用いて微調整を行う。
これらのモデルは以前のシステムの精度を大幅に向上させ、約65%から80%まで向上させた。
微調整過程における多言語性の影響を調べるため、これらのモデルは同じものを2回微調整する。
論文 参考訳(メタデータ) (2024-02-11T23:23:31Z) - Meta-Learning Framework for End-to-End Imposter Identification in Unseen
Speaker Recognition [4.143603294943441]
未確認話者認識における不適切な識別のための固定しきい値(EERメトリックを用いた計算)を用いた一般化の問題を示す。
次に、より優れた性能を実現するために、頑健な話者特異的しきい値設定手法を導入する。
提案手法の有効性をVoxCeleb1, VCTK, FFSVC 2022データセットで示し, ベースラインを最大10%上回った。
論文 参考訳(メタデータ) (2023-06-01T17:49:58Z) - Cross-Lingual Speaker Identification Using Distant Supervision [84.51121411280134]
本稿では,文脈推論の欠如や言語間一般化の低さといった問題に対処する話者識別フレームワークを提案する。
その結果,2つの英語話者識別ベンチマークにおいて,従来の最先端手法よりも9%の精度,5%の精度で性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T20:49:44Z) - Text Independent Speaker Identification System for Access Control [0.0]
ヒューマンインテリジェンスシステムでさえ、特定の個人からスピーチを識別する精度を100%提供できない。
本稿では,Mel Frequency Cepstral Coefficients(MFCC)を特徴抽出に用い,k-Nearest Neighbor(kNN)を分類に用いたテキスト非依存話者識別システムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:42:18Z) - SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified
Datasets and Multitask Learning [24.57668015470307]
我々はSERタスクをマルチスケールの統一メトリックに基づいて統合するフレームワークであるSpeechEQを提案する。
この指標は、感情状態カテゴリー(EIS)と感情強度尺度(EIS)の2つの感情認識タスクを含むマルチタスク学習(MTL)によって訓練することができる。
本研究では,マンダリンにおけるCASIAおよびESDデータセットの公開実験を行い,本手法がベースライン法を比較的大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2022-06-27T08:11:54Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。