論文の概要: A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition
- arxiv url: http://arxiv.org/abs/2303.08027v1
- Date: Tue, 14 Mar 2023 16:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:15:49.401443
- Title: A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition
- Title(参考訳): 音声バースト認識のための階層的回帰連鎖フレームワーク
- Authors: Jinchao Li, Xixin Wu, Kaitao Song, Dongsheng Li, Xunying Liu, Helen
Meng
- Abstract要約: 本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
- 参考スコア(独自算出の注目度): 72.36055502078193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a common way of emotion signaling via non-linguistic vocalizations, vocal
burst (VB) plays an important role in daily social interaction. Understanding
and modeling human vocal bursts are indispensable for developing robust and
general artificial intelligence. Exploring computational approaches for
understanding vocal bursts is attracting increasing research attention. In this
work, we propose a hierarchical framework, based on chain regression models,
for affective recognition from VBs, that explicitly considers multiple
relationships: (i) between emotional states and diverse cultures; (ii) between
low-dimensional (arousal & valence) and high-dimensional (10 emotion classes)
emotion spaces; and (iii) between various emotion classes within the
high-dimensional space. To address the challenge of data sparsity, we also use
self-supervised learning (SSL) representations with layer-wise and temporal
aggregation modules. The proposed systems participated in the ACII Affective
Vocal Burst (A-VB) Challenge 2022 and ranked first in the "TWO'' and "CULTURE''
tasks. Experimental results based on the ACII Challenge 2022 dataset
demonstrate the superior performance of the proposed system and the
effectiveness of considering multiple relationships using hierarchical
regression chain models.
- Abstract(参考訳): 非言語的発声による感情伝達の一般的な方法として、音声バースト(VB)は日々の社会的相互作用において重要な役割を果たす。
人間の声帯バーストの理解とモデル化は、堅牢で汎用的な人工知能を開発する上で不可欠である。
発声バーストを理解するための計算手法の探求は、研究の注目を集めている。
本稿では,複数の関係を明示的に考慮したvbsからの感情認識のための連鎖回帰モデルに基づく階層的フレームワークを提案する。
(i)感情状態と多様な文化の間
(ii)低次元(10の感情クラス)と高次元(10の感情クラス)の感情空間
(三)高次元空間内の様々な感情クラス間の関係
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」と「CULTURE」のタスクで第1位となった。
acii challenge 2022データセットに基づく実験結果は,提案システムの優れた性能と,階層的回帰連鎖モデルを用いた多元関係の考察の有効性を示す。
関連論文リスト
- A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition [41.05066959632938]
言語間音声感情認識(SER)は、幅広い日常的応用において重要である。
本稿では,SERタスクにおける感情伝達を容易にするレイヤアンカリング機構を提案する。
本手法は2つの異なる言語感情コーパスを用いて評価する。
論文 参考訳(メタデータ) (2024-07-06T05:56:55Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - M2R2: Missing-Modality Robust emotion Recognition framework with
iterative data augmentation [6.962213869946514]
学習された共通表現による反復的データ拡張で感情認識モデルを訓練するミス・モダリティ・ロバスト感情認識(M2R2)を提案する。
Party Attentive Network (PANet)は、すべての話者の状態と状況を追跡する感情を分類するために設計された。
論文 参考訳(メタデータ) (2022-05-05T09:16:31Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。