論文の概要: The ICML 2022 Expressive Vocalizations Workshop and Competition:
Recognizing, Generating, and Personalizing Vocal Bursts
- arxiv url: http://arxiv.org/abs/2205.01780v1
- Date: Tue, 3 May 2022 21:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 16:21:33.855011
- Title: The ICML 2022 Expressive Vocalizations Workshop and Competition:
Recognizing, Generating, and Personalizing Vocal Bursts
- Title(参考訳): icml 2022 表現的発声ワークショップとコンペティション:発声バーストの認識、生成、パーソナライズ
- Authors: Alice Baird, Panagiotis Tzirakis, Gauthier Gidel, Marco Jiralerspong,
Eilif B. Muller, Kory Mathewson, Bj\"orn Schuller, Erik Cambria, Dacher
Keltner, Alan Cowen
- Abstract要約: ExVo 2022には,1,702人の話者による59,201人の音声データセットを使用した,3つの競合トラックが含まれている。
本稿では,3つのトラックについて述べるとともに,最先端の機械学習戦略を用いたベースラインモデルの性能評価を行う。
- 参考スコア(独自算出の注目度): 28.585851793516873
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ICML Expressive Vocalization (ExVo) Competition is focused on
understanding and generating vocal bursts: laughs, gasps, cries, and other
non-verbal vocalizations that are central to emotional expression and
communication. ExVo 2022, includes three competition tracks using a large-scale
dataset of 59,201 vocalizations from 1,702 speakers. The first, ExVo-MultiTask,
requires participants to train a multi-task model to recognize expressed
emotions and demographic traits from vocal bursts. The second, ExVo-Generate,
requires participants to train a generative model that produces vocal bursts
conveying ten different emotions. The third, ExVo-FewShot, requires
participants to leverage few-shot learning incorporating speaker identity to
train a model for the recognition of 10 emotions conveyed by vocal bursts. This
paper describes the three tracks and provides performance measures for baseline
models using state-of-the-art machine learning strategies. The baseline for
each track is as follows, for ExVo-MultiTask, a combined score, computing the
harmonic mean of Concordance Correlation Coefficient (CCC), Unweighted Average
Recall (UAR), and inverted Mean Absolute Error (MAE) ($S_{MTL}$) is at best,
0.335 $S_{MTL}$; for ExVo-Generate, we report Fr\'echet inception distance
(FID) scores ranging from 4.81 to 8.27 (depending on the emotion) between the
training set and generated samples. We then combine the inverted FID with
perceptual ratings of the generated samples ($S_{Gen}$) and obtain 0.174
$S_{Gen}$; and for ExVo-FewShot, a mean CCC of 0.444 is obtained.
- Abstract(参考訳): icml expressive vocalization (exvo) コンペティションは、笑い、腹痛、泣き声、そして感情的な表現とコミュニケーションの中心的な非言語的な発声の理解と生成に焦点を当てている。
ExVo 2022には,1,702人の話者による59,201人の音声データセットを使用した,3つの競合トラックが含まれている。
最初のExVo-MultiTaskは、参加者が声のバーストから表現された感情や人口特性を認識するためにマルチタスクモデルをトレーニングする必要がある。
第2のExVo-Generateは、参加者が10種類の感情を伝達する声のバーストを生成する生成モデルを訓練する必要がある。
第3のExVo-FewShotは、参加者がスピーカーアイデンティティを組み込んだ数発の学習を活用して、声のバーストによって伝達される10の感情を認識するモデルを訓練する必要がある。
本稿では,3つのトラックについて述べるとともに,最先端の機械学習戦略を用いたベースラインモデルの性能評価を行う。
exvo-multitask, a combined score, computing the harmonic mean of concordance correlation coefficient (ccc), unweighted average recall (uar), and inverted mean absolute error (mae) (s_{mtl}$) is least is least, 0.335 $s_{mtl}$; exvo-generateでは、トレーニングセットと生成されたサンプルの間の4.81から8.27のスコア(感情に依存する)を報告する。
次に、逆FIDと生成されたサンプルの知覚評価(S_{Gen}$)を組み合わせ、0.174ドルのS_{Gen}$を得る。
関連論文リスト
- Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models [13.137392771279742]
本稿では,SemEval 2024 Task 3 の Subtask 2 に対して,会話におけるマルチモーダル感情の原因分析について提案する。
本稿では,テキスト,音声,視覚的モダリティを統合した新しいマルチモーダル感情認識・マルチモーダル感情原因抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:16:02Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine
Learning Classification Methodologies [0.0]
EmoGatorデータセットは、357人の話者から32,130のサンプルと16.9654時間のオーディオで構成されている。
各サンプルは、話者によって30の異なる感情カテゴリーの1つに分類された。
論文 参考訳(メタデータ) (2023-01-02T03:02:10Z) - Proceedings of the ICML 2022 Expressive Vocalizations Workshop and
Competition: Recognizing, Generating, and Personalizing Vocal Bursts [28.585851793516873]
ExVo 2022には1,702人の話者による59,201人の声の大規模なデータセットを使用した3つの競合トラックが含まれていた。
最初のExVo-MultiTaskは、参加者が声のバーストから表現された感情や人口特性を認識するためにマルチタスクモデルをトレーニングする必要がある。
第2のExVo-Generateは、参加者が10種類の感情を伝達する声のバーストを生成する生成モデルを訓練する必要がある。
論文 参考訳(メタデータ) (2022-07-14T14:30:34Z) - The ACII 2022 Affective Vocal Bursts Workshop & Competition:
Understanding a critically understudied modality of emotional expression [16.364737403587235]
本稿では,最先端の機械学習手法を用いた4つのトラックとベースラインシステムについて述べる。
今年の競技は、1,702人の話者による59,299の発声データセットを使用して4つのトラックで構成されている。
各トラックのベースライン性能は、エンドツーエンドのディープラーニングモデルを用いて得られる。
論文 参考訳(メタデータ) (2022-07-07T21:09:35Z) - Generating Diverse Vocal Bursts with StyleGAN2 and MEL-Spectrograms [14.046451550358427]
ICML表現音声化コンペティションにおける感情的発声タスク(ExVo Generate)に対するアプローチについて述べる。
我々は,事前処理したオーディオサンプルのメルスペクトルに基づいて,条件付きスタイルGAN2アーキテクチャを訓練する。
モデルによって生成されたメル-スペクトログラムは、オーディオ領域に逆戻りされる。
論文 参考訳(メタデータ) (2022-06-25T05:39:52Z) - Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion,
Age, and Origin from Vocal Bursts [49.31604138034298]
Burst2Vecは、事前訓練された音声表現を使用して、生波形から音響情報をキャプチャする。
提案モデルでは,事前抽出した特徴を用いて,ベースラインよりも30%の性能向上を実現している。
論文 参考訳(メタデータ) (2022-06-24T18:57:41Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。