論文の概要: Cross-Corpus Validation of Speech Emotion Recognition in Urdu using Domain-Knowledge Acoustic Features
- arxiv url: http://arxiv.org/abs/2510.26823v1
- Date: Tue, 28 Oct 2025 16:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.849404
- Title: Cross-Corpus Validation of Speech Emotion Recognition in Urdu using Domain-Knowledge Acoustic Features
- Title(参考訳): ドメイン知識音響特徴を用いたウルドゥー語における音声感情認識のクロスコーパス検証
- Authors: Unzela Talpur, Zafi Sherhan Syed, Muhammad Shehram Shah Syed, Abbas Shah Syed,
- Abstract要約: 本研究では, 未調査領域であるクロスコーパス環境でのUrdu SERについて検討した。
我々は、モデル一般化をテストするために、3つの異なるUrdu感情音声データセット間のクロスコーパス評価フレームワークを用いる。
その結果,UARはクロスコーパス評価を最大13%上回る結果となり,自己コーパス検証が性能を過大評価することがわかった。
- 参考スコア(独自算出の注目度): 0.9449650062296823
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech Emotion Recognition (SER) is a key affective computing technology that enables emotionally intelligent artificial intelligence. While SER is challenging in general, it is particularly difficult for low-resource languages such as Urdu. This study investigates Urdu SER in a cross-corpus setting, an area that has remained largely unexplored. We employ a cross-corpus evaluation framework across three different Urdu emotional speech datasets to test model generalization. Two standard domain-knowledge based acoustic feature sets, eGeMAPS and ComParE, are used to represent speech signals as feature vectors which are then passed to Logistic Regression and Multilayer Perceptron classifiers. Classification performance is assessed using unweighted average recall (UAR) whilst considering class-label imbalance. Results show that Self-corpus validation often overestimates performance, with UAR exceeding cross-corpus evaluation by up to 13%, underscoring that cross-corpus evaluation offers a more realistic measure of model robustness. Overall, this work emphasizes the importance of cross-corpus validation for Urdu SER and its implications contribute to advancing affective computing research for underrepresented language communities.
- Abstract(参考訳): 音声感情認識(英: Speech Emotion Recognition, SER)は、感情的に知能な人工知能を実現するための重要なコンピュータ技術である。
SERは一般に難しいが、Urduのような低リソース言語では特に難しい。
本研究では, 未調査領域であるクロスコーパス環境でのUrdu SERについて検討した。
我々は、モデル一般化をテストするために、3つの異なるUrdu感情音声データセット間のクロスコーパス評価フレームワークを用いる。
標準的なドメイン知識に基づく2つの音響特徴集合 eGeMAPS と ComParE は、音声信号を特徴ベクトルとして表現し、ロジスティック回帰と多層パーセプトロン分類器に渡す。
クラスラベルの不均衡を考慮した非重み付き平均リコール(UAR)を用いて分類性能を評価する。
結果から,UARはクロスコーパス評価を最大13%超え,クロスコーパス評価の方がモデルロバストネスのより現実的な指標となることが示唆された。
全体として、この研究はUrdu SERのクロスコーパス検証の重要性を強調し、その影響は、表現不足な言語コミュニティに対する感情コンピューティング研究の進展に寄与する。
関連論文リスト
- CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - EMOVOME: A Dataset for Emotion Recognition in Spontaneous Real-Life Speech [2.1455880234227624]
音声感情認識(SER)のための自発的データセットは、実験室環境やステージ化されたシナリオからしばしば抽出される。
EMOVOME(Emotional Voice Messages)データセットを開発し、公開しました。
ベースラインモデルおよび変圧器モデルとして音響特性を用いた話者非依存SERモデルの評価を行った。
論文 参考訳(メタデータ) (2024-03-04T16:13:39Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Learning Speech Emotion Representations in the Quaternion Domain [16.596137913051212]
RH-emoは、実数値モノオーラルスペクトログラムから四元数埋め込みを抽出することを目的とした、新しい半教師付きアーキテクチャである。
RH-emoは、実値の感情分類器と四元値のデコーダと並行して、実値のエンコーダからなるハイブリッドリアル/四元値オートエンコーダネットワークである。
我々は、Iemocap、Ravdess、EmoDb、Tessの4つの一般的なデータセットを用いて、音声感情認識タスクに対するアプローチをテストする。
論文 参考訳(メタデータ) (2022-04-05T17:45:09Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。