論文の概要: Proceedings of the ICML 2022 Expressive Vocalizations Workshop and
Competition: Recognizing, Generating, and Personalizing Vocal Bursts
- arxiv url: http://arxiv.org/abs/2207.06958v1
- Date: Thu, 14 Jul 2022 14:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 14:50:18.535574
- Title: Proceedings of the ICML 2022 Expressive Vocalizations Workshop and
Competition: Recognizing, Generating, and Personalizing Vocal Bursts
- Title(参考訳): icml 2022 表現発声ワークショップとコンペティション : 発声バーストの認識、生成、パーソナライズ
- Authors: Alice Baird, Panagiotis Tzirakis, Gauthier Gidel, Marco Jiralerspong,
Eilif B. Muller, Kory Mathewson, Bj\"orn Schuller, Erik Cambria, Dacher
Keltner, Alan Cowen
- Abstract要約: ExVo 2022には1,702人の話者による59,201人の声の大規模なデータセットを使用した3つの競合トラックが含まれていた。
最初のExVo-MultiTaskは、参加者が声のバーストから表現された感情や人口特性を認識するためにマルチタスクモデルをトレーニングする必要がある。
第2のExVo-Generateは、参加者が10種類の感情を伝達する声のバーストを生成する生成モデルを訓練する必要がある。
- 参考スコア(独自算出の注目度): 28.585851793516873
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This is the Proceedings of the ICML Expressive Vocalization (ExVo)
Competition. The ExVo competition focuses on understanding and generating vocal
bursts: laughs, gasps, cries, and other non-verbal vocalizations that are
central to emotional expression and communication. ExVo 2022, included three
competition tracks using a large-scale dataset of 59,201 vocalizations from
1,702 speakers. The first, ExVo-MultiTask, requires participants to train a
multi-task model to recognize expressed emotions and demographic traits from
vocal bursts. The second, ExVo-Generate, requires participants to train a
generative model that produces vocal bursts conveying ten different emotions.
The third, ExVo-FewShot, requires participants to leverage few-shot learning
incorporating speaker identity to train a model for the recognition of 10
emotions conveyed by vocal bursts.
- Abstract(参考訳): これはICML Expressive Vocalization(ExVo)コンペティションの成果である。
exvoコンペティションは、笑い、腹痛、泣き声、そして感情的な表現とコミュニケーションの中心となる非言語的な発声の理解と生成に焦点を当てている。
ExVo 2022には,1,702人の話者による59,201人の音声データセットを使用した3つの競合トラックが含まれていた。
最初のExVo-MultiTaskは、参加者が声のバーストから表現された感情や人口特性を認識するためにマルチタスクモデルをトレーニングする必要がある。
第2のExVo-Generateは、参加者が10種類の感情を伝達する声のバーストを生成する生成モデルを訓練する必要がある。
第3のExVo-FewShotは、参加者がスピーカーアイデンティティを組み込んだ数発の学習を活用して、声のバーストによって伝達される10の感情を認識するモデルを訓練する必要がある。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine
Learning Classification Methodologies [0.0]
EmoGatorデータセットは、357人の話者から32,130のサンプルと16.9654時間のオーディオで構成されている。
各サンプルは、話者によって30の異なる感情カテゴリーの1つに分類された。
論文 参考訳(メタデータ) (2023-01-02T03:02:10Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Fine-tuning Wav2vec for Vocal-burst Emotion Recognition [7.910908058662372]
ACII Vocal Affective Bursts (A-VB)コンペティションでは、感情コンピューティングの新しいトピックが紹介されている。
笑い声、叫び声、サインなどの発声は、行動分析に非常に有用なものであるにもかかわらず、利用されない。
本技術報告では,課題の課題に対するScribCNUチームの方法と成果について述べる。
論文 参考訳(メタデータ) (2022-10-01T12:03:27Z) - The ACII 2022 Affective Vocal Bursts Workshop & Competition:
Understanding a critically understudied modality of emotional expression [16.364737403587235]
本稿では,最先端の機械学習手法を用いた4つのトラックとベースラインシステムについて述べる。
今年の競技は、1,702人の話者による59,299の発声データセットを使用して4つのトラックで構成されている。
各トラックのベースライン性能は、エンドツーエンドのディープラーニングモデルを用いて得られる。
論文 参考訳(メタデータ) (2022-07-07T21:09:35Z) - Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion,
Age, and Origin from Vocal Bursts [49.31604138034298]
Burst2Vecは、事前訓練された音声表現を使用して、生波形から音響情報をキャプチャする。
提案モデルでは,事前抽出した特徴を用いて,ベースラインよりも30%の性能向上を実現している。
論文 参考訳(メタデータ) (2022-06-24T18:57:41Z) - The ICML 2022 Expressive Vocalizations Workshop and Competition:
Recognizing, Generating, and Personalizing Vocal Bursts [28.585851793516873]
ExVo 2022には,1,702人の話者による59,201人の音声データセットを使用した,3つの競合トラックが含まれている。
本稿では,3つのトラックについて述べるとともに,最先端の機械学習戦略を用いたベースラインモデルの性能評価を行う。
論文 参考訳(メタデータ) (2022-05-03T21:06:44Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。