Fugu-MT 論文翻訳(概要): CAMEO: Collection of Multilingual Emotional Speech Corpora

論文の概要: CAMEO: Collection of Multilingual Emotional Speech Corpora

arxiv url: http://arxiv.org/abs/2505.11051v1
Date: Fri, 16 May 2025 09:52:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:14.56492
Title: CAMEO: Collection of Multilingual Emotional Speech Corpora
Title（参考訳）: CAMEO:多言語感情音声コーパスの収集
Authors: Iwona Christop, Maciej Czajka,
Abstract要約: 本稿では、感情認識やその他の音声関連タスクの研究を容易にするために設計された多言語感情音声データセットの集合について述べる。主な目的は、データへの容易なアクセスを確保すること、結果の正規化を可能にすること、および音声感情認識システムを評価するための標準化されたベンチマークを提供することであった。このコレクションとメタデータ、およびリーダーボードは、Hugging Faceプラットフォームを通じて公開されている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents CAMEO -- a curated collection of multilingual emotional speech datasets designed to facilitate research in emotion recognition and other speech-related tasks. The main objectives were to ensure easy access to the data, to allow reproducibility of the results, and to provide a standardized benchmark for evaluating speech emotion recognition (SER) systems across different emotional states and languages. The paper describes the dataset selection criteria, the curation and normalization process, and provides performance results for several models. The collection, along with metadata, and a leaderboard, is publicly available via the Hugging Face platform.
Abstract（参考訳）: 本稿では、感情認識やその他の音声関連タスクの研究を容易にするために、多言語感情音声データセットのキュレートしたコレクションであるCAMEOについて述べる。主な目的は、データへのアクセスを容易にし、結果の再現性を確保し、異なる感情状態や言語にわたる音声感情認識(SER)システムを評価するための標準化されたベンチマークを提供することであった。本稿では,データセットの選択基準,キュレーションと正規化のプロセスについて述べる。このコレクションとメタデータ、およびリーダーボードは、Hugging Faceプラットフォームを通じて公開されている。

関連論文リスト

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。 BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。 LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文参考訳（メタデータ） (2024-10-22T12:13:47Z)
Fusion approaches for emotion recognition from speech using acoustic and text-based features [15.186937600119897]
音声とテキストを用いた音声から感情を分類する手法について検討した。音声とテキストのモダリティを組み合わせる戦略を比較し,IEMOCAPとMPP-PODCASTデータセット上で評価する。 IEMOCAPでは,クロスバリデーション・フォールドの定義に使用される基準が結果に大きく影響していることを示す。
論文参考訳（メタデータ） (2024-03-27T14:40:25Z)
SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文参考訳（メタデータ） (2023-11-24T13:47:25Z)
CLARA: Multilingual Contrastive Learning for Audio Representation Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文参考訳（メタデータ） (2023-10-18T09:31:56Z)
EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。 8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文参考訳（メタデータ） (2023-05-22T15:32:32Z)
Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。この戦略は、文学で使われている最先端の手法と比較される。 EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文参考訳（メタデータ） (2022-08-19T11:29:03Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
XTREME-S: Evaluating Cross-lingual Speech Representations [88.78720838743772]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文参考訳（メタデータ） (2022-03-21T06:50:21Z)
POSSCORE: A Simple Yet Effective Evaluation of Conversational Search with Part of Speech Labelling [25.477834359694473]
Google AssistantやMicrosoft Cortanaのような会話型検索システムは、ユーザーが自然言語対話を通じて検索システムとの通信を許可する新しい検索パラダイムを提供する。本稿では,会話検索のための簡易かつ効果的な自動評価手法POSSCOREを提案する。我々の指標は人間の嗜好と相関し、最先端の基準指標よりも大幅に改善できることが示される。
論文参考訳（メタデータ） (2021-09-07T12:31:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。