論文の概要: Developing a High-performance Framework for Speech Emotion Recognition in Naturalistic Conditions Challenge for Emotional Attribute Prediction
- arxiv url: http://arxiv.org/abs/2506.10930v1
- Date: Thu, 12 Jun 2025 17:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.876856
- Title: Developing a High-performance Framework for Speech Emotion Recognition in Naturalistic Conditions Challenge for Emotional Attribute Prediction
- Title(参考訳): 感情属性予測のための自然な条件下での音声認識のための高性能フレームワークの開発
- Authors: Thanathai Lertpetchpun, Tiantian Feng, Dani Byrd, Shrikanth Narayanan,
- Abstract要約: 自然条件下での音声感情認識(SER)は,音声処理コミュニティにとって重要な課題である。
本稿では,自然条件課題における感情認識(IS25-SER Challenge)における優れた(トップ1)パフォーマンスを実現する再現可能なフレームワークを提案する。
本システムは,マルチモーダル学習,マルチタスク学習,不均衡なデータ処理を通じて,上記の課題に対処するように設計されている。
- 参考スコア(独自算出の注目度): 31.454914712837933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) in naturalistic conditions presents a significant challenge for the speech processing community. Challenges include disagreement in labeling among annotators and imbalanced data distributions. This paper presents a reproducible framework that achieves superior (top 1) performance in the Emotion Recognition in Naturalistic Conditions Challenge (IS25-SER Challenge) - Task 2, evaluated on the MSP-Podcast dataset. Our system is designed to tackle the aforementioned challenges through multimodal learning, multi-task learning, and imbalanced data handling. Specifically, our best system is trained by adding text embeddings, predicting gender, and including ``Other'' (O) and ``No Agreement'' (X) samples in the training set. Our system's results secured both first and second places in the IS25-SER Challenge, and the top performance was achieved by a simple two-system ensemble.
- Abstract(参考訳): 自然条件下での音声感情認識(SER)は,音声処理コミュニティにとって重要な課題である。
課題には、アノテータ間のラベリングと不均衡なデータ分散の相違が含まれる。
本稿では, MSP-Podcastデータセットを用いて, 自然条件における感情認識(IS25-SER Challenge)タスク2において, 優れた(トップ1)パフォーマンスを実現する再現可能なフレームワークを提案する。
本システムは,マルチモーダル学習,マルチタスク学習,不均衡なデータ処理を通じて,上記の課題に対処するように設計されている。
具体的には、テキスト埋め込みを追加し、性別を予測し、トレーニングセットに ‘Other' (O) と '`No Agreement' (X) のサンプルを含めることでトレーニングを行う。
その結果,IS25-SERチャレンジでは,第1位と第2位を確保できた。
関連論文リスト
- Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。
提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文 参考訳(メタデータ) (2025-06-02T13:46:02Z) - Exploring Generative Error Correction for Dysarthric Speech Recognition [12.584296717901116]
本稿では,InterSPEECH 2025における音声アクセシビリティ・プロジェクト・チャレンジのための2段階フレームワークを提案する。
モデルスケールとトレーニング戦略の異なる構成を評価し、特定の仮説選択を取り入れて転写精度を向上させる。
変形性音声認識における音響モデルと言語モデリングの相補的役割について考察する。
論文 参考訳(メタデータ) (2025-05-26T16:06:31Z) - ABHINAYA -- A System for Speech Emotion Recognition In Naturalistic Conditions Challenge [26.88581786290044]
本稿では,音声ベース,テキストベース,音声テキストモデルを統合するシステムであるAbhinayaを紹介する。
音声表現のための自己教師型音声大言語モデル(SLLM)を提案する。
クラス不均衡に対処するために、調整された損失関数を適用し、多数決によってカテゴリー決定を生成する。
論文 参考訳(メタデータ) (2025-05-23T08:01:56Z) - Towards Event Extraction from Speech with Contextual Clues [61.164413398231254]
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
論文 参考訳(メタデータ) (2024-01-27T11:07:19Z) - SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified
Datasets and Multitask Learning [24.57668015470307]
我々はSERタスクをマルチスケールの統一メトリックに基づいて統合するフレームワークであるSpeechEQを提案する。
この指標は、感情状態カテゴリー(EIS)と感情強度尺度(EIS)の2つの感情認識タスクを含むマルチタスク学習(MTL)によって訓練することができる。
本研究では,マンダリンにおけるCASIAおよびESDデータセットの公開実験を行い,本手法がベースライン法を比較的大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2022-06-27T08:11:54Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - ASVspoof 2021: accelerating progress in spoofed and deepfake speech
detection [70.45884214674057]
ASVspoof 2021は、スプーフの研究を促進するための2年制の課題の第4版である。
本稿では,3つのタスク,それぞれのデータベース,評価基準,4つの課題ベースライン,評価プラットフォーム,課題結果の要約について述べる。
論文 参考訳(メタデータ) (2021-09-01T16:17:31Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。