論文の概要: An Efficient Multitask Learning Architecture for Affective Vocal Burst
Analysis
- arxiv url: http://arxiv.org/abs/2209.13914v1
- Date: Wed, 28 Sep 2022 08:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 18:29:16.044267
- Title: An Efficient Multitask Learning Architecture for Affective Vocal Burst
Analysis
- Title(参考訳): 感情的発声解析のための効率的なマルチタスク学習アーキテクチャ
- Authors: Tobias Hallmen, Silvan Mertes, Dominik Schiller, Elisabeth Andr\'e
- Abstract要約: 感情的発声解析への現在のアプローチは、主にwav2vec2 や HuBERT の特徴に基づいている。
本稿では,wav2vecの後継データ2vecとマルチタスク学習パイプラインを組み合わせることで,異なる解析問題に一度に対処する方法について検討する。
効率的なマルチタスク学習アーキテクチャの性能を評価するため,2022年のACII Affective Vocal Burst Challengeに参加した。
- 参考スコア(独自算出の注目度): 1.2951621755732543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affective speech analysis is an ongoing topic of research. A relatively new
problem in this field is the analysis of vocal bursts, which are nonverbal
vocalisations such as laughs or sighs. Current state-of-the-art approaches to
address affective vocal burst analysis are mostly based on wav2vec2 or HuBERT
features. In this paper, we investigate the use of the wav2vec successor
data2vec in combination with a multitask learning pipeline to tackle different
analysis problems at once. To assess the performance of our efficient multitask
learning architecture, we participate in the 2022 ACII Affective Vocal Burst
Challenge, showing that our approach substantially outperforms the baseline
established there in three different subtasks.
- Abstract(参考訳): 感情音声分析は研究の現在進行中の課題である。
この分野では比較的新しい問題は、笑いやため息のような非言語的な発声である発声の分析である。
情緒的発声解析への最先端のアプローチは、主にwav2vec2 や HuBERT の特徴に基づいている。
本稿では,wav2vecの後継データ2vecとマルチタスク学習パイプラインを組み合わせることで,異なる解析問題に一度に対処する方法について検討する。
効率的なマルチタスク学習アーキテクチャの性能を評価するために,我々は2022 acii affective vocal burst challenge に参加し,このアプローチが3つのサブタスクで確立されたベースラインを大きく上回ることを示した。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction [6.1058750788332325]
第6回ワークショップおよび感情行動分析コンペティションの一環として,情緒的不安度(EMI)を評価するための新しい方法論を紹介した。
我々の手法は、広範囲なポッドキャストデータセットで事前トレーニングされたWav2Vec 2.0アーキテクチャを活用している。
我々は,個々の特徴をグローバル平均ベクトルと組み合わせた融合手法を用いて特徴抽出プロセスを洗練する。
論文 参考訳(メタデータ) (2024-03-18T15:32:02Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Self-Supervised Attention Networks and Uncertainty Loss Weighting for
Multi-Task Emotion Recognition on Vocal Bursts [5.3802825558183835]
本稿では,A-VB(A-VB)における発声バーストの分類と,その感情的意義を予測するためのアプローチを提案する。
当社のアプローチは,4つのタスクのすべてにおいて,課題ベースラインをはるかに越えています。
論文 参考訳(メタデータ) (2022-09-15T15:50:27Z) - Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion,
Age, and Origin from Vocal Bursts [49.31604138034298]
Burst2Vecは、事前訓練された音声表現を使用して、生波形から音響情報をキャプチャする。
提案モデルでは,事前抽出した特徴を用いて,ベースラインよりも30%の性能向上を実現している。
論文 参考訳(メタデータ) (2022-06-24T18:57:41Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。