論文の概要: EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels
- arxiv url: http://arxiv.org/abs/2305.13137v1
- Date: Mon, 22 May 2023 15:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:57:54.560430
- Title: EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels
- Title(参考訳): EMNS/Imz/ Corpus: ゲーム、テレビ、グラフィックノベルにおけるストーリーテリングのための動機的単一話者データセット
- Authors: Kari Ali Noriy, Xiaosong Yang, Jian Jun Zhang
- Abstract要約: 本稿では,ラベル付き発話を用いた英国英語の高品質音声データセットであるEMNSコーパスについて述べる。
EMNSは、より自然で表現力のある音声合成技術を支援するために、高品質でクリーンな記録を提供することにより、既存のデータセットを改善する。
- 参考スコア(独自算出の注目度): 6.2375553155844266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing adoption of text-to-speech technologies has led to a growing
demand for natural and emotive voices that adapt to a conversation's context
and emotional tone. This need is particularly relevant for interactive
narrative-driven systems such as video games, TV shows, and graphic novels. To
address this need, we present the Emotive Narrative Storytelling (EMNS) corpus,
a dataset of high-quality British English speech with labelled utterances
designed to enhance interactive experiences with dynamic and expressive
language. We provide high-quality clean audio recordings and natural language
description pairs with transcripts and user-reviewed and self-reported labels
for features such as word emphasis, expressiveness, and emotion labels. EMNS
improves on existing datasets by providing higher quality and clean recording
to aid more natural and expressive speech synthesis techniques for interactive
narrative-driven experiences. Additionally, we release our remote and scalable
data collection system to the research community.
- Abstract(参考訳): テキスト音声技術の採用が増加し、会話の文脈や感情のトーンに適応する自然な、感情的な声の需要が高まった。
このニーズは、ビデオゲーム、テレビ番組、グラフィックノベルといったインタラクティブな物語駆動システムに特に関係している。
そこで本研究では,対話的体験を動的かつ表現豊かにするためのラベル付き発話を用いた高品質英国英語音声のデータセットであるemotive narrative storytelling(emns)コーパスを提案する。
単語強調,表現力,感情ラベルなどの特徴に対して,高品位な音声録音と自然言語記述対と書き起こし,自己評価・自己報告ラベルを提供する。
EMNSは、インタラクティブな物語駆動体験のためのより自然で表現豊かな音声合成技術を支援するために、高品質でクリーンな記録を提供することにより、既存のデータセットを改善する。
さらに、リモートでスケーラブルなデータ収集システムを研究コミュニティにリリースしています。
関連論文リスト
- Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Detecting Emotion Carriers by Combining Acoustic and Lexical
Representations [7.225325393598648]
ナレーターの感情状態を最もよく説明するセグメントとして定義される感情キャリア(EC)に注目した。
ECは、自然言語理解を改善するために、ユーザ状態のよりリッチな表現を提供することができます。
音声話中の心電図の検出には,単語ベースの音響およびテキストの埋め込みに加えて,早期・後期の融合技術を利用する。
論文 参考訳(メタデータ) (2021-12-13T12:39:53Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。