論文の概要: Emotional Reaction Intensity Estimation Based on Multimodal Data
- arxiv url: http://arxiv.org/abs/2303.09167v1
- Date: Thu, 16 Mar 2023 09:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:18:51.616313
- Title: Emotional Reaction Intensity Estimation Based on Multimodal Data
- Title(参考訳): マルチモーダルデータに基づく感情反応強度推定
- Authors: Shangfei Wang, Jiaqiang Wu, Feiyi Zheng, Xin Li, Xuewei Li, Suwen
Wang, Yi Wu, Yanan Chang, Xiangyu Miao
- Abstract要約: 本稿では,感情反応強度(ERI)推定法について紹介する。
発声器が提供するマルチモーダルデータに基づいて,事前学習した異なるモデルを用いて,音響的特徴と視覚的特徴を抽出する。
- 参考スコア(独自算出の注目度): 24.353102762289545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces our method for the Emotional Reaction Intensity (ERI)
Estimation Challenge, in CVPR 2023: 5th Workshop and Competition on Affective
Behavior Analysis in-the-wild (ABAW). Based on the multimodal data provided by
the originazers, we extract acoustic and visual features with different
pretrained models. The multimodal features are mixed together by Transformer
Encoders with cross-modal attention mechnism. In this paper, 1. better features
are extracted with the SOTA pretrained models. 2. Compared with the baseline,
we improve the Pearson's Correlations Coefficient a lot. 3. We process the data
with some special skills to enhance performance ability of our model.
- Abstract(参考訳): 本稿では, CVPR 2023: 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) において, 感情反応強度(ERI)推定チャレンジについて紹介する。
オリジンザザーが提供するマルチモーダルデータに基づき、異なる事前学習されたモデルを用いて音響的特徴と視覚的特徴を抽出する。
マルチモーダル機能は、クロスモーダルアテンションメクニズムを持つトランスフォーマーエンコーダによって混合される。
この論文では
1. SOTA事前訓練モデルにより、より良い特徴を抽出する。
2. ベースラインと比較すると、ピアソン相関係数が大幅に向上する。
3. モデルの性能向上のために, 特別なスキルでデータを処理する。
関連論文リスト
- MPRE: Multi-perspective Patient Representation Extractor for Disease
Prediction [3.914545513460964]
疾患予測のための多視点患者表現エクストラクタ(MPRE)を提案する。
具体的には、動的特徴の傾向と変動情報を抽出する周波数変換モジュール(FTM)を提案する。
2D Multi-Extraction Network (2D MEN) において、傾向と変動に基づいて2次元時間テンソルを形成する。
また,FODAM(First-Order difference Attention Mechanism)も提案する。
論文 参考訳(メタデータ) (2024-01-01T13:52:05Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - New Approach for an Affective Computing-Driven Quality of Experience
(QoE) Prediction [0.0]
本稿では,感情型コンピュータ駆動のQuality of Experience(QoE)予測の新しいモデルを提案する。
The best results were obtained with a LSTM based model, presented a F1-score from 68% to 78%。
論文 参考訳(メタデータ) (2023-11-05T13:21:07Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。
空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。
本手法は,公式な検証セットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-16T10:31:40Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Decoupling the Role of Data, Attention, and Losses in Multimodal
Transformers [20.343814813409537]
学習表現の質に影響を与える重要な要因として,事前学習データ,注意機構,損失関数の3つについて検討する。
6つのデータセット上でモデルを事前学習することにより、下流タスクとデータセットのノイズと言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。
自己教師型学習文献では,マルチモーダル変圧器でも同様の性能向上が得られない。
論文 参考訳(メタデータ) (2021-01-31T20:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。