論文の概要: Self-Relation Attention and Temporal Awareness for Emotion Recognition
via Vocal Burst
- arxiv url: http://arxiv.org/abs/2209.07629v1
- Date: Thu, 15 Sep 2022 22:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:54:23.184487
- Title: Self-Relation Attention and Temporal Awareness for Emotion Recognition
via Vocal Burst
- Title(参考訳): 声帯バーストによる感情認識における自己関係意識と時間意識
- Authors: Dang-Linh Trinh, Minh-Cong Vo, Guee-Sang Lee
- Abstract要約: The ACII Affective Vocal Bursts (A-VB) 2022 Workshop & Competitionにおいて、高次元感情タスク(A-VB High)に対する感情認識パイプラインを報告した。
実験により,提案手法はベースラインモデルでは0.5686に対して,テストセットでは0.7295の平均相関係数(CCC)を達成する。
- 参考スコア(独自算出の注目度): 4.6193503399184275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The technical report presents our emotion recognition pipeline for
high-dimensional emotion task (A-VB High) in The ACII Affective Vocal Bursts
(A-VB) 2022 Workshop \& Competition. Our proposed method contains three stages.
Firstly, we extract the latent features from the raw audio signal and its
Mel-spectrogram by self-supervised learning methods. Then, the features from
the raw signal are fed to the self-relation attention and temporal awareness
(SA-TA) module for learning the valuable information between these latent
features. Finally, we concatenate all the features and utilize a
fully-connected layer to predict each emotion's score. By empirical
experiments, our proposed method achieves a mean concordance correlation
coefficient (CCC) of 0.7295 on the test set, compared to 0.5686 on the baseline
model. The code of our method is available at
https://github.com/linhtd812/A-VB2022.
- Abstract(参考訳): 本報告では, acii affective vocal bursts (a-vb) 2022 workshop \& competitionにおいて, 高次元感情タスク(a-vb high)に対する感情認識パイプラインを提案する。
提案手法は3段階を含む。
まず,自己教師型学習手法により生音声信号とそのメルスペクトルから潜時特徴を抽出する。
次に、生信号からの特徴を自己相関注意および時間認識(sa-ta)モジュールに与え、これらの潜在特徴間の貴重な情報を得る。
最後に、すべての特徴を結合し、各感情のスコアを予測するために完全に接続された層を利用する。
実験により,提案手法はベースラインモデルでは0.5686に対して,テストセットでは0.7295の平均一致相関係数(CCC)を達成する。
このメソッドのコードはhttps://github.com/linhtd812/a-vb2022で入手できる。
関連論文リスト
- EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Continuous Emotion Recognition using Visual-audio-linguistic
information: A Technical Report for ABAW3 [15.077019278082673]
連続的感情認識のためのクロスモーダルコアテンションモデル
視覚、音声、言語ブロックは、マルチモーダル入力の特徴を学ぶために使用される。
トレーニングおよび検証セット上でクロスバリデーションを行う。
論文 参考訳(メタデータ) (2022-03-24T12:18:06Z) - An Attention-based Method for Action Unit Detection at the 3rd ABAW
Competition [6.229820412732652]
本稿では,2022年の第3回ABAW(Affective Behavior Analysis in-the-Wild)コンテストへの参加について述べる。
映像中の顔の動きを検知する手法を提案する。
ABAWチャレンジ検証セットのマクロF1スコアは0.48であり,ベースラインモデルでは0.39であった。
論文 参考訳(メタデータ) (2022-03-23T14:07:39Z) - Sentiment-Aware Automatic Speech Recognition pre-training for enhanced
Speech Emotion Recognition [11.760166084942908]
音声感情認識(SER)のためのマルチタスク事前学習手法を提案する。
自動音声認識(ASR)と感情分類タスクでSERモデルを同時に訓練する。
我々は、公開されているデータに基づいて訓練されたテキスト・トゥ・センチメント・モデルを用いて感情分類のターゲットを生成する。
論文 参考訳(メタデータ) (2022-01-27T22:20:28Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - On the use of Self-supervised Pre-trained Acoustic and Linguistic
Features for Continuous Speech Emotion Recognition [2.294014185517203]
音声から連続的な感情認識を行うために,wav2vec と camemBERT を自己教師付き学習モデルとして用いた。
著者らにとって,本論文は,wav2vecとBERTライクな事前学習特徴の併用が連続SERタスクに非常に関係していることを示す最初の研究である。
論文 参考訳(メタデータ) (2020-11-18T11:10:29Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z) - EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's
Principle [71.47160118286226]
EmotiConは、ビデオや画像から知覚された人間の感情認識をコンテキスト認識する学習アルゴリズムである。
心理学からフレーゲの文脈原理に動機づけられた我々のアプローチは、感情認識のための文脈の3つの解釈を組み合わせたものである。
平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
論文 参考訳(メタデータ) (2020-03-14T19:55:21Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。