論文の概要: MERaLiON-SER: Robust Speech Emotion Recognition Model for English and SEA Languages
- arxiv url: http://arxiv.org/abs/2511.04914v1
- Date: Fri, 07 Nov 2025 01:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.639374
- Title: MERaLiON-SER: Robust Speech Emotion Recognition Model for English and SEA Languages
- Title(参考訳): MERaLiON-SER:英語およびSEA言語におけるロバスト音声感情認識モデル
- Authors: Hardik B. Sailor, Aw Ai Ti, Chen Fang Yih Nancy, Chiu Ying Lay, Ding Yang, He Yingxu, Jiang Ridong, Li Jingtao, Liao Jingyi, Liu Zhuohan, Lu Yanfeng, Ma Yi, Manas Gupta, Muhammad Huzaifah Bin Md Shahrin, Nabilah Binte Md Johan, Nattadaporn Lertcheva, Pan Chunlei, Pham Minh Duc, Siti Maryam Binte Ahmad Subaidi, Siti Umairah Binte Mohammad Salleh, Sun Shuo, Tarun Kumar Vangani, Wang Qiongqiong, Won Cheng Yi Lewis, Wong Heng Meng Jeremy, Wu Jinyang, Zhang Huayun, Zhang Longyin, Zou Xunlong,
- Abstract要約: 本稿では,英語と東南アジア語に対する頑健な音声感情認識モデルMERaLiON-SERを提案する。
本モデルでは,重み付きカテゴリーのクロスエントロピーとコンコーダンス相関係数の損失を組み合わせたハイブリッド目標を用いて学習を行った。
我々は,MERaLiON-SERがオープンソース音声エンコーダと大規模オーディオ-LLMを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 1.8158194662712928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MERaLiON-SER, a robust speech emotion recognition model de- signed for English and Southeast Asian languages. The model is trained using a hybrid objective combining weighted categorical cross-entropy and Concordance Correlation Coefficient (CCC) losses for joint discrete and dimensional emotion modelling. This dual approach enables the model to capture both the distinct categories of emotion (like happy or angry) and the fine-grained, such as arousal (intensity), valence (positivity/negativity), and dominance (sense of control), lead- ing to a more comprehensive and robust representation of human affect. Extensive evaluations across multilingual Singaporean languages (English, Chinese, Malay, and Tamil ) and other public benchmarks show that MERaLiON-SER consistently surpasses both open-source speech encoders and large Audio-LLMs. These results underscore the importance of specialised speech-only models for accurate paralin- guistic understanding and cross-lingual generalisation. Furthermore, the proposed framework provides a foundation for integrating emotion-aware perception into future agentic audio systems, enabling more empathetic and contextually adaptive multimodal reasoning.
- Abstract(参考訳): 本稿では,英語と東南アジア語に対する頑健な音声感情認識モデルMERaLiON-SERを提案する。
このモデルは、重み付けされたカテゴリー的クロスエントロピーとコンコーダンス相関係数(CCC)の損失を組み合わせたハイブリッド目標を用いて訓練される。
この2つのアプローチは、モデルが感情の異なるカテゴリー(幸福や怒りなど)と、覚醒(強度)、原子価(肯定的/否定的)、支配(制御の感覚)、リード・インティング(リード・イン)の両方を、より包括的で堅牢な人間の感情の表現へと捉えることを可能にする。
多言語シンガポール語(英語、中国語、マレー語、タミル語)およびその他の公的なベンチマークによる広範な評価は、MERaLiON-SERがオープンソース音声エンコーダと大規模オーディオ-LLMを一貫して上回っていることを示している。
これらの結果は、正確なパラリン言語理解と言語間一般化のための特化音声のみのモデルの重要性を浮き彫りにした。
さらに、提案フレームワークは、感情認識を将来のエージェントオーディオシステムに統合する基盤を提供し、より共感的で文脈適応的なマルチモーダル推論を可能にする。
関連論文リスト
- Speaker Style-Aware Phoneme Anchoring for Improved Cross-Lingual Speech Emotion Recognition [58.74986434825755]
言語間音声の感情認識は、音韻変動と話者固有の表現スタイルの違いにより難しい課題である。
本研究では,感情表現を音素レベルと話者レベルで整列させる話者スタイルの音素アンカーフレームワークを提案する。
本手法は,グラフに基づくクラスタリングにより,感情特異的な話者コミュニティを構築し,話者の特徴を抽出する。
論文 参考訳(メタデータ) (2025-09-19T21:03:21Z) - GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness [43.67571101152883]
本稿では,パラ言語的・話者的特徴認識を備えた新しい言語モデルGOAT-SLMを紹介する。
GOAT-SLMは、言語モデリングを音響的実現から切り離すデュアルモダリティヘッドアーキテクチャを採用している。
GOAT-SLMはセマンティックタスクと非セマンティックタスクの両方でバランスよく動作し、既存のオープンソースモデルよりも感情や方言の変化、年齢に敏感なインタラクションを処理できることを示す。
論文 参考訳(メタデータ) (2025-07-24T06:10:29Z) - Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages [31.15696076055884]
コントラスト学習を利用して、多言語音声の特徴を洗練し、大きな言語モデルを拡張することを提案する。
具体的には、感情空間における音声信号と言語的特徴を整合させるために、2段階の新たな訓練フレームワークを用いる。
この分野での研究を進めるために,大規模合成多言語音声感情データセットM5SERを導入する。
論文 参考訳(メタデータ) (2025-03-25T05:58:18Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
EMOVA (EMotionally Omni-present Voice Assistant) を提案する。
セマンティック・アコースティック・ディコンタングルド・音声トークンーザでは、オムニモーダルアライメントが視覚言語や音声能力をさらに向上させることに驚く。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - Cross-Lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models [16.0617753653454]
本研究では,人間のパフォーマンスとSSLモデルの比較分析を行った。
また、モデルと人間のSER能力を発話レベルとセグメントレベルの両方で比較する。
その結果,適切な知識伝達を行うモデルでは,対象言語に適応し,ネイティブ話者に匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-09-25T13:27:17Z) - Joint Modeling of Code-Switched and Monolingual ASR via Conditional
Factorization [75.98664099579392]
本稿では,バイリンガル音声認識を構成するモノリンガルとコードスウィッチのサブタスクの可能性を共同でモデル化するための一般的な枠組みを提案する。
単言語およびコード切替コーパス間のバイリンガル・マンダリン・イングリッシュ音声認識における提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-11-29T23:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。