論文の概要: A Dual Branch Network for Emotional Reaction Intensity Estimation
- arxiv url: http://arxiv.org/abs/2303.09210v1
- Date: Thu, 16 Mar 2023 10:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:58:49.195210
- Title: A Dual Branch Network for Emotional Reaction Intensity Estimation
- Title(参考訳): 感情反応強度推定のための二重分岐ネットワーク
- Authors: Jun Yu, Jichao Zhu, Wangyuan Zhu, Zhongpeng Cai, Guochen Xie, Renda
Li, Gongpeng Zhao
- Abstract要約: 両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。
空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。
本手法は,公式な検証セットにおいて優れた結果が得られる。
- 参考スコア(独自算出の注目度): 12.677143408225167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional Reaction Intensity(ERI) estimation is an important task in
multimodal scenarios, and has fundamental applications in medicine, safe
driving and other fields. In this paper, we propose a solution to the ERI
challenge of the fifth Affective Behavior Analysis in-the-wild(ABAW), a
dual-branch based multi-output regression model. The spatial attention is used
to better extract visual features, and the Mel-Frequency Cepstral Coefficients
technology extracts acoustic features, and a method named modality dropout is
added to fusion multimodal features. Our method achieves excellent results on
the official validation set.
- Abstract(参考訳): 情動反応インテンシティ(ERI)推定は,マルチモーダルシナリオにおいて重要な課題であり,医療,安全運転,その他の分野での基本的な応用がある。
本稿では,二重分岐型多出力回帰モデルである in-the-wild(abaw) における5番目の感情行動分析の eri 課題に対する解決法を提案する。
空間的注意は視覚的な特徴をよりよく抽出するために使用され、メル周波数ケプストラム係数技術は音響的特徴を抽出し、融合マルチモーダル特徴にモダリティドロップアウト(modality dropout)という手法を追加する。
本手法は公式検証セットにおいて優れた結果を得る。
関連論文リスト
- Emotional Reaction Intensity Estimation Based on Multimodal Data [24.353102762289545]
本稿では,感情反応強度(ERI)推定法について紹介する。
発声器が提供するマルチモーダルデータに基づいて,事前学習した異なるモデルを用いて,音響的特徴と視覚的特徴を抽出する。
論文 参考訳(メタデータ) (2023-03-16T09:14:47Z) - Multimodal Feature Extraction and Fusion for Emotional Reaction
Intensity Estimation and Expression Classification in Videos with
Transformers [46.96090775164395]
我々は,野生(ABAW)2023における2つの影響行動分析のサブチャレンジに対して,その解決策を提示する。
The Emotional Reaction Intensity (ERI) Estimation Challenge, our method showed excellent results with a Pearson coefficient on the validation dataset, compare the baseline method by 84%。
論文 参考訳(メタデータ) (2023-03-16T09:03:17Z) - Cross Attentional Audio-Visual Fusion for Dimensional Emotion
Recognition [16.00029392324104]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。
本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。
その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文 参考訳(メタデータ) (2021-11-09T16:01:56Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z) - Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional
Emotion Recognition [38.350188118975616]
本稿では、2ストリームのオートエンコーダと、感情認識のための長期記憶からなる新しいディープニューラルネットワークアーキテクチャを提案する。
野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。
実験の結果,提案手法は最先端の認識性能を達成し,既存のスキームをはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2020-04-28T01:25:00Z) - $M^3$T: Multi-Modal Continuous Valence-Arousal Estimation in the Wild [86.40973759048957]
本報告では、ABAW(Affective Behavior Analysis in-the-wild)チャレンジの価-覚醒的評価トラックへの提案に基づくマルチモーダルマルチタスク(M3$T)アプローチについて述べる。
提案したM3$Tフレームワークでは,ビデオの視覚的特徴とオーディオトラックの音響的特徴の両方を融合させて,有声度と覚醒度を推定する。
ABAW が提供する検証セットに対して,M3$T フレームワークを評価し,ベースライン法を著しく上回る性能を示した。
論文 参考訳(メタデータ) (2020-02-07T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。