論文の概要: iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis
- arxiv url: http://arxiv.org/abs/2602.21464v1
- Date: Wed, 25 Feb 2026 00:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.652562
- Title: iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis
- Title(参考訳): iMiGUE-Speech: 感情分析のための自発的音声データセット
- Authors: Sofoklis Kakouros, Fang Kang, Haoyu Chen,
- Abstract要約: iMiGUE-Speech(iMiGUE-Speech)は、感情的および感情的状態を研究するための自発的な感情コーパスを提供するiMiGUEデータセットの拡張である。
iMiGUE-Speechは、実際の一致結果から自然に生じる自然影響をキャプチャする。
- 参考スコア(独自算出の注目度): 7.298729249943839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents iMiGUE-Speech, an extension of the iMiGUE dataset that provides a spontaneous affective corpus for studying emotional and affective states. The new release focuses on speech and enriches the original dataset with additional metadata, including speech transcripts, speaker-role separation between interviewer and interviewee, and word-level forced alignments. Unlike existing emotional speech datasets that rely on acted or laboratory-elicited emotions, iMiGUE-Speech captures spontaneous affect arising naturally from real match outcomes. To demonstrate the utility of the dataset and establish initial benchmarks, we introduce two evaluation tasks for comparative assessment: speech emotion recognition and transcript-based sentiment analysis. These tasks leverage state-of-the-art pre-trained representations to assess the dataset's ability to capture spontaneous affective states from both acoustic and linguistic modalities. iMiGUE-Speech can also be synchronously paired with micro-gesture annotations from the original iMiGUE dataset, forming a uniquely multimodal resource for studying speech-gesture affective dynamics. The extended dataset is available at https://github.com/CV-AC/imigue-speech.
- Abstract(参考訳): この研究は、iMiGUEデータセットの拡張であるiMiGUE-Speechを紹介し、感情的および感情的状態を研究するための自発的な感情コーパスを提供する。
新しいリリースでは、音声の書き起こし、インタビュアーとインタビュアーの話者とロールの分離、単語レベルの強制アライメントなどのメタデータが追加され、元のデータセットが強化される。
iMiGUE-Speechは、行動的または実験的な感情に依存する既存の感情的音声データセットとは異なり、実際の一致結果から自然に生じる影響をキャプチャする。
データセットの有用性を実証し、初期ベンチマークを確立するために、音声の感情認識と書き起こしに基づく感情分析という、比較評価のための2つの評価タスクを導入する。
これらのタスクは、最先端の事前訓練された表現を利用して、音響と言語の両方のモードから自発的な感情状態を取得するデータセットの能力を評価する。
iMiGUE-Speechは、元のiMiGUEデータセットからのマイクロジェスチャアノテーションと同期的にペアリングすることができ、音声・ジェスチャーの感情力学を研究するためのユニークなマルチモーダルリソースを形成する。
拡張データセットはhttps://github.com/CV-AC/imigue-speech.comで公開されている。
関連論文リスト
- Evaluating Emotion Recognition in Spoken Language Models on Emotionally Incongruent Speech [0.13048920509133805]
音声感情認識における4つの音声言語モデル(SLM)の評価を行った。
以上の結果から,SLMは音声の感情よりもテキストのセマンティクスに大きく依存していることが示唆された。
論文 参考訳(メタデータ) (2025-10-29T00:45:36Z) - Benchmarking Contextual and Paralinguistic Reasoning in Speech-LLMs: A Case Study with In-the-Wild Data [46.12417789276609]
音声-LLMは、書き起こしや翻訳といったタスクにおいて顕著なパフォーマンスを示してきたが、社会的および感情的な知性に不可欠な音声のパラ言語的側面を理解することにはまだ限界がある。
文脈パラ言語推論における音声LLMの評価のためのベンチマークであるCP-Benchを提案する。
論文 参考訳(メタデータ) (2025-09-20T09:26:40Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。
女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。
8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文 参考訳(メタデータ) (2023-05-22T15:32:32Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。