論文の概要: A Dataset for Speech Emotion Recognition in Greek Theatrical Plays
- arxiv url: http://arxiv.org/abs/2203.15568v1
- Date: Sun, 27 Mar 2022 21:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:39:50.133335
- Title: A Dataset for Speech Emotion Recognition in Greek Theatrical Plays
- Title(参考訳): ギリシャ演劇における音声感情認識のためのデータセット
- Authors: Maria Moutti, Sofia Eleftheriou, Panagiotis Koromilas, Theodoros
Giannakopoulos
- Abstract要約: 劇場劇の字幕を自動的に生成するために、音声分析を用いることができる。
演劇における音声対話の感情的内容を自動的に予測するために,音声感情認識(SER)を用いることができる。
本稿ではギリシャの演劇における音声感情認識のための新しい公開データ収集であるGreThEを紹介する。
- 参考スコア(独自算出の注目度): 2.685039330775817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning methodologies can be adopted in cultural applications and
propose new ways to distribute or even present the cultural content to the
public. For instance, speech analytics can be adopted to automatically generate
subtitles in theatrical plays, in order to (among other purposes) help people
with hearing loss. Apart from a typical speech-to-text transcription with
Automatic Speech Recognition (ASR), Speech Emotion Recognition (SER) can be
used to automatically predict the underlying emotional content of speech
dialogues in theatrical plays, and thus to provide a deeper understanding how
the actors utter their lines. However, real-world datasets from theatrical
plays are not available in the literature. In this work we present GreThE, the
Greek Theatrical Emotion dataset, a new publicly available data collection for
speech emotion recognition in Greek theatrical plays. The dataset contains
utterances from various actors and plays, along with respective valence and
arousal annotations. Towards this end, multiple annotators have been asked to
provide their input for each speech recording and inter-annotator agreement is
taken into account in the final ground truth generation. In addition, we
discuss the results of some indicative experiments that have been conducted
with machine and deep learning frameworks, using the dataset, along with some
widely used databases in the field of speech emotion recognition.
- Abstract(参考訳): 機械学習の手法は、文化的な応用に適用でき、文化的なコンテンツを大衆に配布したり、提示したりする新しい方法を提案する。
例えば、演劇の字幕を自動的に生成するために、音声分析が採用され、(他の目的で)聴覚障害の人を助ける。
ASR(Automatic Speech Recognition)による一般的な音声テキストの書き起こしとは別に、SER(A Speech Emotion Recognition)は、劇場劇における音声対話の根底にある感情的内容を自動的に予測し、俳優がその行をどう発声するかをより深く理解する。
しかし、演劇の現実世界のデータセットは文学では入手できない。
本稿では,ギリシャ演劇における音声感情認識のための新しい公開データ収集であるギリシャ演劇感情データセットであるGreThEを紹介する。
データセットには、さまざまなアクターとプレイからの発声と、各値と覚醒アノテーションが含まれている。
この目的のために、複数のアノテータに各音声記録に対する入力を依頼し、最終的な真実生成において、アノテータ間合意を考慮に入れた。
さらに,このデータセットを用いて機械学習とディープラーニングのフレームワークを用いて行ったいくつかの実演実験の結果と,音声感情認識の分野で広く使われているデータベースについて述べる。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。
女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。
8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文 参考訳(メタデータ) (2023-05-22T15:32:32Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。