論文の概要: MEDUSA: A Multimodal Deep Fusion Multi-Stage Training Framework for Speech Emotion Recognition in Naturalistic Conditions
- arxiv url: http://arxiv.org/abs/2506.09556v1
- Date: Wed, 11 Jun 2025 09:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.82012
- Title: MEDUSA: A Multimodal Deep Fusion Multi-Stage Training Framework for Speech Emotion Recognition in Naturalistic Conditions
- Title(参考訳): MEDUSA:自然条件下での音声感情認識のためのマルチモーダルディープフュージョン多段階学習フレームワーク
- Authors: Georgios Chatzichristodoulou, Despoina Kosmopoulou, Antonios Kritikos, Anastasia Poulopoulou, Efthymios Georgiou, Athanasios Katsamanis, Vassilis Katsouros, Alexandros Potamianos,
- Abstract要約: MEDUSAは4段階のトレーニングパイプラインを備えたマルチモーダルフレームワークである。
DeepSERは、Deep-Modal Transformer fusionの新たな拡張である。
Manor MixUpは、さらなるレギュラー化のために使用される。
- 参考スコア(独自算出の注目度): 46.34220791244788
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: SER is a challenging task due to the subjective nature of human emotions and their uneven representation under naturalistic conditions. We propose MEDUSA, a multimodal framework with a four-stage training pipeline, which effectively handles class imbalance and emotion ambiguity. The first two stages train an ensemble of classifiers that utilize DeepSER, a novel extension of a deep cross-modal transformer fusion mechanism from pretrained self-supervised acoustic and linguistic representations. Manifold MixUp is employed for further regularization. The last two stages optimize a trainable meta-classifier that combines the ensemble predictions. Our training approach incorporates human annotation scores as soft targets, coupled with balanced data sampling and multitask learning. MEDUSA ranked 1st in Task 1: Categorical Emotion Recognition in the Interspeech 2025: Speech Emotion Recognition in Naturalistic Conditions Challenge.
- Abstract(参考訳): SERは、人間の感情の主観的性質と、自然主義的条件下での不均一な表現のため、困難な課題である。
クラス不均衡と感情のあいまいさを効果的に扱える4段階のトレーニングパイプラインを備えたマルチモーダルフレームワークであるMEDUSAを提案する。
最初の2段階はDeepSER(Deep-Modal Transformer fusion mechanismの新たな拡張)を利用する分類器のアンサンブルを訓練する。
Manifold MixUpはさらなる正規化のために使用されている。
最後の2つのステージは、アンサンブル予測を組み合わせたトレーニング可能なメタ分類器を最適化する。
トレーニングアプローチでは、人間のアノテーションスコアをソフトターゲットとして、バランスの取れたデータサンプリングとマルチタスク学習を併用する。
MEDUSAは、2025年のインタースピーチにおけるカテゴリー的感情認識、自然条件課題における音声感情認識の第1位にランクインした。
関連論文リスト
- OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [73.03333371375]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - MSP-Podcast SER Challenge 2024: L'antenne du Ventoux Multimodal Self-Supervised Learning for Speech Emotion Recognition [12.808666808009926]
MSP-Podcast Speech Emotion Recognition (SER) Challengeの2024版を提出する。
この課題は、カテゴリー的感情認識(Categorical Emotion Recognition)と感情的属性予測(Emotional Attribute Prediction)の2つの異なるタスクに分けられる。
我々のアプローチでは、個別に訓練されたモデルと、SVM(Support Vector Machine)を使用してスコアレベルで融合したモデルのアンサンブルを採用しています。
この共同訓練手法は、感情状態を正確に分類するシステムの能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-07-08T08:52:06Z) - BLSP-Emo: Towards Empathetic Large Speech-Language Models [34.62210186235263]
BLSP-Emoは、音声における意味と感情の両方を理解可能なエンドツーエンドの音声言語モデルを開発するための新しいアプローチである。
実験の結果,BLSP-Emoモデルでは,音声の理解と共感応答の伝達が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T09:02:31Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。