論文の概要: MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling
- arxiv url: http://arxiv.org/abs/2505.15772v1
- Date: Wed, 21 May 2025 17:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.798339
- Title: MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling
- Title(参考訳): MIKU-PAL:音声パラ言語とアフェクトラベリングのための多モード自動標準化手法
- Authors: Cheng Yifan, Zhang Ruoyi, Shi Jiatong,
- Abstract要約: 本稿では、ラベルなしビデオデータから高一貫性の感情音声を抽出する完全自動マルチモーダルパイプラインMIKU-PALを提案する。
以上の結果から,MIKU-PALは人間レベルの精度(MELDでは68.5%)と優れた一貫性(0.93Fleiss kappaスコア)を達成できることが示された。
さらに,感情的テキスト音声と視覚的音声のクローニングのための新しいベンチマークとして,微粒な感情音声データセットMIKU-EmoBench(131.2時間)をリリースした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Acquiring large-scale emotional speech data with strong consistency remains a challenge for speech synthesis. This paper presents MIKU-PAL, a fully automated multimodal pipeline for extracting high-consistency emotional speech from unlabeled video data. Leveraging face detection and tracking algorithms, we developed an automatic emotion analysis system using a multimodal large language model (MLLM). Our results demonstrate that MIKU-PAL can achieve human-level accuracy (68.5% on MELD) and superior consistency (0.93 Fleiss kappa score) while being much cheaper and faster than human annotation. With the high-quality, flexible, and consistent annotation from MIKU-PAL, we can annotate fine-grained speech emotion categories of up to 26 types, validated by human annotators with 83% rationality ratings. Based on our proposed system, we further released a fine-grained emotional speech dataset MIKU-EmoBench(131.2 hours) as a new benchmark for emotional text-to-speech and visual voice cloning.
- Abstract(参考訳): 強い一貫性を持つ大規模感情音声データを取得することは、音声合成の課題である。
本稿では、ラベルなしビデオデータから高一貫性の感情音声を抽出する完全自動マルチモーダルパイプラインMIKU-PALを提案する。
顔検出・追跡アルゴリズムを活用し,マルチモーダル大言語モデル(MLLM)を用いた感情自動分析システムを開発した。
以上の結果から,MIKU-PALは人間レベルの精度(MELDでは68.5%)と優れた一貫性(0.93Fleiss kappaスコア)を達成できる一方で,アノテーションよりもはるかに安価で高速であることが示された。
MIKU-PALの高品質でフレキシブルで一貫したアノテーションにより、最大26種類の微粒な音声感情カテゴリーをアノテートすることができる。
提案システムに基づいて,感情的テキスト音声と視覚的音声のクローニングのための新しいベンチマークとして,よりきめ細かな感情的音声データセットMIKU-EmoBench(131.2時間)を新たにリリースした。
関連論文リスト
- EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。
EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs [2.8728982844941178]
音声感情認識(SER)は、音声言語から感情状態を特定することに焦点を当てている。
データ信頼性を確保するために、まず利用可能なすべての書き起こしを改良する新しいアプローチを提案する。
次に、各会話をより小さな対話に分割し、これらの対話を文脈として使用し、対話内のターゲット発話の感情を予測する。
論文 参考訳(メタデータ) (2024-10-27T04:23:34Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。