論文の概要: CAMEO: Collection of Multilingual Emotional Speech Corpora
- arxiv url: http://arxiv.org/abs/2505.11051v1
- Date: Fri, 16 May 2025 09:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.56492
- Title: CAMEO: Collection of Multilingual Emotional Speech Corpora
- Title(参考訳): CAMEO:多言語感情音声コーパスの収集
- Authors: Iwona Christop, Maciej Czajka,
- Abstract要約: 本稿では、感情認識やその他の音声関連タスクの研究を容易にするために設計された多言語感情音声データセットの集合について述べる。
主な目的は、データへの容易なアクセスを確保すること、結果の正規化を可能にすること、および音声感情認識システムを評価するための標準化されたベンチマークを提供することであった。
このコレクションとメタデータ、およびリーダーボードは、Hugging Faceプラットフォームを通じて公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents CAMEO -- a curated collection of multilingual emotional speech datasets designed to facilitate research in emotion recognition and other speech-related tasks. The main objectives were to ensure easy access to the data, to allow reproducibility of the results, and to provide a standardized benchmark for evaluating speech emotion recognition (SER) systems across different emotional states and languages. The paper describes the dataset selection criteria, the curation and normalization process, and provides performance results for several models. The collection, along with metadata, and a leaderboard, is publicly available via the Hugging Face platform.
- Abstract(参考訳): 本稿では、感情認識やその他の音声関連タスクの研究を容易にするために、多言語感情音声データセットのキュレートしたコレクションであるCAMEOについて述べる。
主な目的は、データへのアクセスを容易にし、結果の再現性を確保し、異なる感情状態や言語にわたる音声感情認識(SER)システムを評価するための標準化されたベンチマークを提供することであった。
本稿では,データセットの選択基準,キュレーションと正規化のプロセスについて述べる。
このコレクションとメタデータ、およびリーダーボードは、Hugging Faceプラットフォームを通じて公開されている。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Fusion approaches for emotion recognition from speech using acoustic and text-based features [15.186937600119897]
音声とテキストを用いた音声から感情を分類する手法について検討した。
音声とテキストのモダリティを組み合わせる戦略を比較し,IEMOCAPとMPP-PODCASTデータセット上で評価する。
IEMOCAPでは,クロスバリデーション・フォールドの定義に使用される基準が結果に大きく影響していることを示す。
論文 参考訳(メタデータ) (2024-03-27T14:40:25Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - XTREME-S: Evaluating Cross-lingual Speech Representations [88.78720838743772]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。
本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文 参考訳(メタデータ) (2022-03-21T06:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。