論文の概要: EM2LDL: A Multilingual Speech Corpus for Mixed Emotion Recognition through Label Distribution Learning
- arxiv url: http://arxiv.org/abs/2511.20106v1
- Date: Tue, 25 Nov 2025 09:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.383488
- Title: EM2LDL: A Multilingual Speech Corpus for Mixed Emotion Recognition through Label Distribution Learning
- Title(参考訳): ラベル分布学習による混合感情認識のための多言語音声コーパスEM2LDL
- Authors: Xingfeng Li, Xiaohan Shi, Junjie Li, Yongwei Li, Masashi Unoki, Tomoki Toda, Masato Akagi,
- Abstract要約: 本研究では,ラベル分布学習による混合感情認識の促進を目的とした多言語音声コーパスEM2LDLを提案する。
EM2LDLは、英語、マンダリン、カントン語で表現的な発声を含んでおり、香港やマカオなど多言語圏で広く使われている発声のコードスイッチングを捉えている。
- 参考スコア(独自算出の注目度): 43.19985438293247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces EM2LDL, a novel multilingual speech corpus designed to advance mixed emotion recognition through label distribution learning. Addressing the limitations of predominantly monolingual and single-label emotion corpora \textcolor{black}{that restrict linguistic diversity, are unable to model mixed emotions, and lack ecological validity}, EM2LDL comprises expressive utterances in English, Mandarin, and Cantonese, capturing the intra-utterance code-switching prevalent in multilingual regions like Hong Kong and Macao. The corpus integrates spontaneous emotional expressions from online platforms, annotated with fine-grained emotion distributions across 32 categories. Experimental baselines using self-supervised learning models demonstrate robust performance in speaker-independent gender-, age-, and personality-based evaluations, with HuBERT-large-EN achieving optimal results. By incorporating linguistic diversity and ecological validity, EM2LDL enables the exploration of complex emotional dynamics in multilingual settings. This work provides a versatile testbed for developing adaptive, empathetic systems for applications in affective computing, including mental health monitoring and cross-cultural communication. The dataset, annotations, and baseline codes are publicly available at https://github.com/xingfengli/EM2LDL.
- Abstract(参考訳): 本研究では,ラベル分布学習による混合感情認識の促進を目的とした多言語音声コーパスEM2LDLを提案する。
言語的多様性を制限し、混合感情をモデル化することができず、生態的妥当性が欠如している、単言語とシングルラベル感情の限界に対処するため、EM2LDLは、英語、マンダリン、カントン語で表現的な発話を包含し、香港やマカオなどの多言語地域で流行する発話内コードスイッチングを捉えている。
コーパスは、オンラインプラットフォームからの自発的な感情表現を統合し、32カテゴリにわたる微粒な感情分布を注釈付けする。
自己教師付き学習モデルを用いた実験ベースラインは、HuBERT-large-ENを用いて、話者非依存性、年齢、性格に基づく評価において頑健な性能を示す。
言語多様性と生態学的妥当性を取り入れることで、EM2LDLは多言語環境における複雑な感情動態の探索を可能にする。
この研究は、メンタルヘルスモニタリングや異文化間コミュニケーションなど、感情コンピューティングの応用のための適応的で共感的なシステムを開発するための多種多様なテストベッドを提供する。
データセット、アノテーション、ベースラインコードはhttps://github.com/xingfengli/EM2LDLで公開されている。
関連論文リスト
- Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages [31.15696076055884]
コントラスト学習を利用して、多言語音声の特徴を洗練し、大きな言語モデルを拡張することを提案する。
具体的には、感情空間における音声信号と言語的特徴を整合させるために、2段階の新たな訓練フレームワークを用いる。
この分野での研究を進めるために,大規模合成多言語音声感情データセットM5SERを導入する。
論文 参考訳(メタデータ) (2025-03-25T05:58:18Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Human-LLM Collaborative Construction of a Cantonese Emotion Lexicon [1.3074442742310615]
本研究では,低リソース言語であるCantoneseのための感情辞書を開発することを提案する。
LLM(Large Language Models)と人間のアノテータによって提供される感情ラベルを統合することで、既存の言語資源を活用している。
感情抽出における感情レキシコンの整合性は、3つの異なる感情テキストデータセットの修正と利用によって評価された。
論文 参考訳(メタデータ) (2024-10-15T11:57:34Z) - Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の全スペクトルを伝達する上で困難に直面している。
本稿では,3つの感情的次元 – 快楽,覚醒,支配 – に対してフレキシブルなユーザコントロールを提供するTTSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。