論文の概要: EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine
Learning Classification Methodologies
- arxiv url: http://arxiv.org/abs/2301.00508v1
- Date: Mon, 2 Jan 2023 03:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 16:21:57.474567
- Title: EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine
Learning Classification Methodologies
- Title(参考訳): EmoGator: ベースライン機械学習分類手法を備えたオープンソースの新しいボーカルバーストデータセット
- Authors: Fred W. Buhl
- Abstract要約: EmoGatorデータセットは、365人のスピーカーから32,040人のサンプルと16.91時間のオーディオで構成されている。
各サンプルは、話者によって30の異なる感情カテゴリーの1つに分類された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vocal Bursts -- short, non-speech vocalizations that convey emotions, such as
laughter, cries, sighs, moans, and groans -- are an often-overlooked aspect of
speech emotion recognition, but an important aspect of human vocal
communication. One barrier to study of these interesting vocalizations is a
lack of large datasets. I am pleased to introduce the EmoGator dataset, which
consists of 32,040 samples from 365 speakers, 16.91 hours of audio; each sample
classified into one of 30 distinct emotion categories by the speaker. Several
different approaches to construct classifiers to identify emotion categories
will be discussed, and directions for future research will be suggested. Data
set is available for download from https://github.com/fredbuhl/EmoGator.
- Abstract(参考訳): 声のバーストは、笑い、泣き声、なめらかさ、ムアン、グロアンといった感情を伝える短い非音声の発声であり、しばしば見過ごされる音声感情認識の側面であるが、人間の声のコミュニケーションにおいて重要な側面である。
これらの興味深い発声の研究の障壁の1つは、大きなデータセットの欠如である。
EmoGatorデータセットは、365人のスピーカーから32,040人のサンプルと16.91時間のオーディオで構成されており、それぞれのサンプルはスピーカーによって30の異なる感情カテゴリの1つに分類されている。
感情カテゴリーを識別するための分類器の構築にはいくつかの異なるアプローチが議論され、今後の研究の方向性が提案される。
データセットはhttps://github.com/fredbuhl/EmoGator.comからダウンロードできる。
関連論文リスト
- Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Proceedings of the ICML 2022 Expressive Vocalizations Workshop and
Competition: Recognizing, Generating, and Personalizing Vocal Bursts [28.585851793516873]
ExVo 2022には1,702人の話者による59,201人の声の大規模なデータセットを使用した3つの競合トラックが含まれていた。
最初のExVo-MultiTaskは、参加者が声のバーストから表現された感情や人口特性を認識するためにマルチタスクモデルをトレーニングする必要がある。
第2のExVo-Generateは、参加者が10種類の感情を伝達する声のバーストを生成する生成モデルを訓練する必要がある。
論文 参考訳(メタデータ) (2022-07-14T14:30:34Z) - Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition [13.373579620368046]
VocalSoundのデータセットは、21,000件以上のクラウドソースによる笑い声、うさぎ声、うなり声、喉のクリアリング、くしゃみ、嗅ぎ声の録音で構成されています。
実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-05-06T18:08:18Z) - The ICML 2022 Expressive Vocalizations Workshop and Competition:
Recognizing, Generating, and Personalizing Vocal Bursts [28.585851793516873]
ExVo 2022には,1,702人の話者による59,201人の音声データセットを使用した,3つの競合トラックが含まれている。
本稿では,3つのトラックについて述べるとともに,最先端の機械学習戦略を用いたベースラインモデルの性能評価を行う。
論文 参考訳(メタデータ) (2022-05-03T21:06:44Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。