論文の概要: Self-Supervised Attention Networks and Uncertainty Loss Weighting for
Multi-Task Emotion Recognition on Vocal Bursts
- arxiv url: http://arxiv.org/abs/2209.07384v1
- Date: Thu, 15 Sep 2022 15:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:27:04.153161
- Title: Self-Supervised Attention Networks and Uncertainty Loss Weighting for
Multi-Task Emotion Recognition on Vocal Bursts
- Title(参考訳): 音声バーストにおけるマルチタスク感情認識のための自己監督型注意ネットワークと不確かさ損失重み付け
- Authors: Vincent Karas, Andreas Triantafyllopoulos, Meishu Song and Bj\"orn W.
Schuller
- Abstract要約: 本稿では,A-VB(A-VB)における発声バーストの分類と,その感情的意義を予測するためのアプローチを提案する。
当社のアプローチは,4つのタスクのすべてにおいて,課題ベースラインをはるかに越えています。
- 参考スコア(独自算出の注目度): 5.3802825558183835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vocal bursts play an important role in communicating affect, making them
valuable for improving speech emotion recognition. Here, we present our
approach for classifying vocal bursts and predicting their emotional
significance in the ACII Affective Vocal Burst Workshop & Challenge 2022
(A-VB). We use a large self-supervised audio model as shared feature extractor
and compare multiple architectures built on classifier chains and attention
networks, combined with uncertainty loss weighting strategies. Our approach
surpasses the challenge baseline by a wide margin on all four tasks.
- Abstract(参考訳): 音声バーストはコミュニケーションへの影響において重要な役割を担い、音声の感情認識を改善するのに有用である。
本稿では, acii affective vocal burst workshop & challenge 2022 (a-vb) において発声バーストを分類し, その感情的意義を予測する手法を提案する。
我々は,共有特徴抽出器として大規模自己教師付き音声モデルを用い,分類器チェーンとアテンションネットワーク上に構築した複数のアーキテクチャと不確実性損失重み付け戦略とを比較した。
当社のアプローチは,4つのタスクすべてにおいて,チャレンジベースラインをはるかに上回っています。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - An Efficient Multitask Learning Architecture for Affective Vocal Burst
Analysis [1.2951621755732543]
感情的発声解析への現在のアプローチは、主にwav2vec2 や HuBERT の特徴に基づいている。
本稿では,wav2vecの後継データ2vecとマルチタスク学習パイプラインを組み合わせることで,異なる解析問題に一度に対処する方法について検討する。
効率的なマルチタスク学習アーキテクチャの性能を評価するため,2022年のACII Affective Vocal Burst Challengeに参加した。
論文 参考訳(メタデータ) (2022-09-28T08:32:08Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Speaker Attentive Speech Emotion Recognition [11.92436948211501]
音声感情認識(SER)タスクは、DNN(Deep Neural Networks)の出現により、ここ数年で大幅に改善されました。
スピーカーのアイデンティティについて感情認識ネットワークを教えるというアイデアに基づく新しい作品を紹介します。
論文 参考訳(メタデータ) (2021-04-15T07:59:37Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。