論文の概要: A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition
- arxiv url: http://arxiv.org/abs/2303.08027v1
- Date: Tue, 14 Mar 2023 16:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:15:49.401443
- Title: A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition
- Title(参考訳): 音声バースト認識のための階層的回帰連鎖フレームワーク
- Authors: Jinchao Li, Xixin Wu, Kaitao Song, Dongsheng Li, Xunying Liu, Helen
Meng
- Abstract要約: 本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
- 参考スコア(独自算出の注目度): 72.36055502078193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a common way of emotion signaling via non-linguistic vocalizations, vocal
burst (VB) plays an important role in daily social interaction. Understanding
and modeling human vocal bursts are indispensable for developing robust and
general artificial intelligence. Exploring computational approaches for
understanding vocal bursts is attracting increasing research attention. In this
work, we propose a hierarchical framework, based on chain regression models,
for affective recognition from VBs, that explicitly considers multiple
relationships: (i) between emotional states and diverse cultures; (ii) between
low-dimensional (arousal & valence) and high-dimensional (10 emotion classes)
emotion spaces; and (iii) between various emotion classes within the
high-dimensional space. To address the challenge of data sparsity, we also use
self-supervised learning (SSL) representations with layer-wise and temporal
aggregation modules. The proposed systems participated in the ACII Affective
Vocal Burst (A-VB) Challenge 2022 and ranked first in the "TWO'' and "CULTURE''
tasks. Experimental results based on the ACII Challenge 2022 dataset
demonstrate the superior performance of the proposed system and the
effectiveness of considering multiple relationships using hierarchical
regression chain models.
- Abstract(参考訳): 非言語的発声による感情伝達の一般的な方法として、音声バースト(VB)は日々の社会的相互作用において重要な役割を果たす。
人間の声帯バーストの理解とモデル化は、堅牢で汎用的な人工知能を開発する上で不可欠である。
発声バーストを理解するための計算手法の探求は、研究の注目を集めている。
本稿では,複数の関係を明示的に考慮したvbsからの感情認識のための連鎖回帰モデルに基づく階層的フレームワークを提案する。
(i)感情状態と多様な文化の間
(ii)低次元(10の感情クラス)と高次元(10の感情クラス)の感情空間
(三)高次元空間内の様々な感情クラス間の関係
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」と「CULTURE」のタスクで第1位となった。
acii challenge 2022データセットに基づく実験結果は,提案システムの優れた性能と,階層的回帰連鎖モデルを用いた多元関係の考察の有効性を示す。
関連論文リスト
- A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Self-Supervised Attention Networks and Uncertainty Loss Weighting for
Multi-Task Emotion Recognition on Vocal Bursts [5.3802825558183835]
本稿では,A-VB(A-VB)における発声バーストの分類と,その感情的意義を予測するためのアプローチを提案する。
当社のアプローチは,4つのタスクのすべてにおいて,課題ベースラインをはるかに越えています。
論文 参考訳(メタデータ) (2022-09-15T15:50:27Z) - M2R2: Missing-Modality Robust emotion Recognition framework with
iterative data augmentation [6.962213869946514]
学習された共通表現による反復的データ拡張で感情認識モデルを訓練するミス・モダリティ・ロバスト感情認識(M2R2)を提案する。
Party Attentive Network (PANet)は、すべての話者の状態と状況を追跡する感情を分類するために設計された。
論文 参考訳(メタデータ) (2022-05-05T09:16:31Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Hybrid Curriculum Learning for Emotion Recognition in Conversation [10.912215835115063]
本枠組みは,(1)会話レベルカリキュラム(CC)と(2)発話レベルカリキュラム(UC)の2つのカリキュラムから構成される。
提案したモデルに依存しないハイブリッドカリキュラム学習戦略により,既存のERCモデルに対する大幅な性能向上が観測された。
論文 参考訳(メタデータ) (2021-12-22T08:02:58Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。