論文の概要: EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark
- arxiv url: http://arxiv.org/abs/2406.07162v1
- Date: Tue, 11 Jun 2024 11:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:13:39.214006
- Title: EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark
- Title(参考訳): EmoBox:多言語多言語音声感情認識ツールキットとベンチマーク
- Authors: Ziyang Ma, Mingjie Chen, Hezhao Zhang, Zhisheng Zheng, Wenxi Chen, Xiquan Li, Jiaxin Ye, Xie Chen, Thomas Hain,
- Abstract要約: 音声感情認識(SER)は人間とコンピュータの相互作用の重要な部分である。
EmoBox(エモボックス)は、マルチ言語対応のマルチコーパス音声感情認識ツールキットである。
そこで本研究では,14言語を含む32の感情データセットを対象とした10の事前学習音声モデルのコーパス内SER結果と,完全にバランスの取れたテストセットを持つ4つのデータセットに対するクロスコーパスSER結果を示す。
- 参考スコア(独自算出の注目度): 17.025090275310465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) is an important part of human-computer interaction, receiving extensive attention from both industry and academia. However, the current research field of SER has long suffered from the following problems: 1) There are few reasonable and universal splits of the datasets, making comparing different models and methods difficult. 2) No commonly used benchmark covers numerous corpus and languages for researchers to refer to, making reproduction a burden. In this paper, we propose EmoBox, an out-of-the-box multilingual multi-corpus speech emotion recognition toolkit, along with a benchmark for both intra-corpus and cross-corpus settings. For intra-corpus settings, we carefully designed the data partitioning for different datasets. For cross-corpus settings, we employ a foundation SER model, emotion2vec, to mitigate annotation errors and obtain a test set that is fully balanced in speakers and emotions distributions. Based on EmoBox, we present the intra-corpus SER results of 10 pre-trained speech models on 32 emotion datasets with 14 languages, and the cross-corpus SER results on 4 datasets with the fully balanced test sets. To the best of our knowledge, this is the largest SER benchmark, across language scopes and quantity scales. We hope that our toolkit and benchmark can facilitate the research of SER in the community.
- Abstract(参考訳): 音声感情認識(SER)は、人間とコンピュータの相互作用において重要な部分であり、産業と学術の両方から広く注目を集めている。
しかし、SERの現在の研究分野は、長い間、以下の問題に悩まされてきた。
1) データセットの合理的かつ普遍的な分割はほとんどなく, 異なるモデルや手法を比較するのが困難である。
2) 研究者が参照する多数のコーパスや言語を網羅するベンチマークは行われておらず, 再生が負担となる。
本稿では,多言語マルチコーパス音声感情認識ツールキットであるEmoBoxと,コーパス内およびクロスコーパス間設定のベンチマークを提案する。
企業内設定のために、異なるデータセットに対するデータパーティショニングを慎重に設計しました。
クロスコーパス設定では、アノテーションエラーを軽減し、話者と感情分布で完全にバランスのとれたテストセットを得るため、基礎的なSERモデルである感情2vecを用いる。
EmoBoxをベースとして,14言語を含む32の感情データセットに対して,事前学習した10の音声モデルを用いた企業内SER結果と,完全にバランスの取れたテストセットを持つ4つのデータセットを用いた企業間SER結果を示す。
私たちの知る限りでは、これは言語の範囲と量スケールにわたる、最大のSERベンチマークです。
当社のツールキットとベンチマークによって,コミュニティにおけるSERの研究が促進されることを願っています。
関連論文リスト
- Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。
MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。
MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文 参考訳(メタデータ) (2024-07-03T01:56:00Z) - MELD-ST: An Emotion-aware Speech Translation Dataset [29.650945917540316]
本稿では,感情認識型音声翻訳タスクのためのMELD-STデータセットについて述べる。
各言語ペアには、MELDデータセットからの感情ラベルを付加した約10,000の発話が含まれている。
データセット上のSeamlessM4Tモデルを用いたベースライン実験は、感情ラベルによる微調整によって、いくつかの環境での翻訳性能が向上することを示している。
論文 参考訳(メタデータ) (2024-05-21T22:40:38Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - Towards Generalizable SER: Soft Labeling and Data Augmentation for
Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech [3.86122440373248]
段階的な感情的強度を捉えるソフトラベルシステムを提案する。
コントラスト学習にインスパイアされたWhisperエンコーダとデータ拡張手法を用いて,感情の時間的ダイナミクスを強調する。
Hume-Prosodyを微調整した後、オープンソースモデルウェイトと最初の有望な結果を公開する。
論文 参考訳(メタデータ) (2023-11-15T00:09:21Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - Persian Emotion Detection using ParsBERT and Imbalanced Data Handling
Approaches [0.0]
EmoParsとArmanEmoは、ペルシャ語のための新しい人間のラベル付き感情データセットである。
EmoParsを評価し,ArmanEmoと比較した。
我々のモデルはArmanEmoとEmoParsでそれぞれ0.81と0.76のマクロ平均F1スコアに達する。
論文 参考訳(メタデータ) (2022-11-15T10:22:49Z) - XTREME-S: Evaluating Cross-lingual Speech Representations [88.78720838743772]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。
本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文 参考訳(メタデータ) (2022-03-21T06:50:21Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。