論文の概要: The ACII 2022 Affective Vocal Bursts Workshop & Competition:
Understanding a critically understudied modality of emotional expression
- arxiv url: http://arxiv.org/abs/2207.03572v1
- Date: Thu, 7 Jul 2022 21:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:29:49.213139
- Title: The ACII 2022 Affective Vocal Bursts Workshop & Competition:
Understanding a critically understudied modality of emotional expression
- Title(参考訳): ACII 2022 Affective Vocal Bursts Workshop & Competition: Understanding a critically underspected modality of emotion expression
- Authors: Alice Baird, Panagiotis Tzirakis, Jeffrey A. Brooks, Christopher B.
Gregory, Bj\"orn Schuller, Anton Batliner, Dacher Keltner, Alan Cowen
- Abstract要約: 本稿では,最先端の機械学習手法を用いた4つのトラックとベースラインシステムについて述べる。
今年の競技は、1,702人の話者による59,299の発声データセットを使用して4つのトラックで構成されている。
各トラックのベースライン性能は、エンドツーエンドのディープラーニングモデルを用いて得られる。
- 参考スコア(独自算出の注目度): 16.364737403587235
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ACII Affective Vocal Bursts Workshop & Competition is focused on
understanding multiple affective dimensions of vocal bursts: laughs, gasps,
cries, screams, and many other non-linguistic vocalizations central to the
expression of emotion and to human communication more generally. This year's
competition comprises four tracks using a large-scale and in-the-wild dataset
of 59,299 vocalizations from 1,702 speakers. The first, the A-VB-High task,
requires competition participants to perform a multi-label regression on a
novel model for emotion, utilizing ten classes of richly annotated emotional
expression intensities, including; Awe, Fear, and Surprise. The second, the
A-VB-Two task, utilizes the more conventional 2-dimensional model for emotion,
arousal, and valence. The third, the A-VB-Culture task, requires participants
to explore the cultural aspects of the dataset, training native-country
dependent models. Finally, for the fourth task, A-VB-Type, participants should
recognize the type of vocal burst (e.g., laughter, cry, grunt) as an 8-class
classification. This paper describes the four tracks and baseline systems,
which use state-of-the-art machine learning methods. The baseline performance
for each track is obtained by utilizing an end-to-end deep learning model and
is as follows: for A-VB-High, a mean (over the 10-dimensions) Concordance
Correlation Coefficient (CCC) of 0.5687 CCC is obtained; for A-VB-Two, a mean
(over the 2-dimensions) CCC of 0.5084 is obtained; for A-VB-Culture, a mean CCC
from the four cultures of 0.4401 is obtained; and for A-VB-Type, the baseline
Unweighted Average Recall (UAR) from the 8-classes is 0.4172 UAR.
- Abstract(参考訳): acii affective vocal bursts workshop & competitionは、笑い、ガスプス、泣き声、叫びなど、感情の表現と人間のコミュニケーションのより一般的に中心となる非言語的音声化の複数の感情的側面を理解することに焦点を当てている。
今年のコンペティションは、1,702人の話者による59,299曲の大規模なデータセットを使用した4つのトラックで構成されている。
1つ目は、A-VB-Highタスクで、参加者は、Awe、Fear、Surpriseを含む10種類のリッチな注釈付き感情表現強度のクラスを利用して、新しい感情モデル上で複数のラベルレグレッションを実行する必要がある。
第2のA-VB-Twoタスクは、感情、覚醒、原子価の2次元モデルを利用する。
第3のタスクであるA-VB-Cultureタスクでは、参加者がデータセットの文化的側面を調べ、ネイティブな国依存モデルをトレーニングする必要がある。
最後に、4番目のタスクであるA-VB-Typeでは、参加者は声帯のタイプ(笑い、泣き、笑いなど)を8つのクラスに分類される。
本稿では,最先端機械学習手法を用いた4つのトラックとベースラインシステムについて述べる。
エンド・ツー・エンドのディープラーニングモデルを用いて各トラックのベースライン性能を求め、A-VB-Highでは平均(10次元以上)CCCが0.5687、A-VB-Twoでは平均(2次元以上)CCCが0.5084、A-VB-Cultureでは4つのカルチャーから平均CCCが0.4401、A-VB-Typeでは、ベースラインの非重み付き平均コール(UAR)が0.4172UARとなる。
関連論文リスト
- Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - The 6th Affective Behavior Analysis in-the-wild (ABAW) Competition [53.718777420180395]
本稿では,第6回ABAWコンペティションについて述べる。
第6回ABAWコンペティションは、人間の感情や行動を理解する上での現代の課題に対処する。
論文 参考訳(メタデータ) (2024-02-29T16:49:38Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - ABAW: Valence-Arousal Estimation, Expression Recognition, Action Unit
Detection & Emotional Reaction Intensity Estimation Challenges [62.413819189049946]
5th Affective Behavior Analysis in-the-Wild(ABAW)コンペティションは、IEEE Computer Vision and Pattern Recognition Conference(CVPR)と共同で開催される各ABAWワークショップの一部である。
今年のコンペティションでは、Aff-Wild2データベースの拡張バージョンとHume-Reactionデータセットの2つのコーパスが特徴です。
後者のデータセットは、感情的刺激に対する個人の反応が7つの感情的表現強度に対して注釈付けされている聴覚的データセットである。
論文 参考訳(メタデータ) (2023-03-02T18:58:15Z) - Self-Relation Attention and Temporal Awareness for Emotion Recognition
via Vocal Burst [4.6193503399184275]
The ACII Affective Vocal Bursts (A-VB) 2022 Workshop & Competitionにおいて、高次元感情タスク(A-VB High)に対する感情認識パイプラインを報告した。
実験により,提案手法はベースラインモデルでは0.5686に対して,テストセットでは0.7295の平均相関係数(CCC)を達成する。
論文 参考訳(メタデータ) (2022-09-15T22:06:42Z) - Proceedings of the ICML 2022 Expressive Vocalizations Workshop and
Competition: Recognizing, Generating, and Personalizing Vocal Bursts [28.585851793516873]
ExVo 2022には1,702人の話者による59,201人の声の大規模なデータセットを使用した3つの競合トラックが含まれていた。
最初のExVo-MultiTaskは、参加者が声のバーストから表現された感情や人口特性を認識するためにマルチタスクモデルをトレーニングする必要がある。
第2のExVo-Generateは、参加者が10種類の感情を伝達する声のバーストを生成する生成モデルを訓練する必要がある。
論文 参考訳(メタデータ) (2022-07-14T14:30:34Z) - Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion,
Age, and Origin from Vocal Bursts [49.31604138034298]
Burst2Vecは、事前訓練された音声表現を使用して、生波形から音響情報をキャプチャする。
提案モデルでは,事前抽出した特徴を用いて,ベースラインよりも30%の性能向上を実現している。
論文 参考訳(メタデータ) (2022-06-24T18:57:41Z) - The ICML 2022 Expressive Vocalizations Workshop and Competition:
Recognizing, Generating, and Personalizing Vocal Bursts [28.585851793516873]
ExVo 2022には,1,702人の話者による59,201人の音声データセットを使用した,3つの競合トラックが含まれている。
本稿では,3つのトラックについて述べるとともに,最先端の機械学習戦略を用いたベースラインモデルの性能評価を行う。
論文 参考訳(メタデータ) (2022-05-03T21:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。