論文の概要: Emotional Reaction Intensity Estimation Based on Multimodal Data
- arxiv url: http://arxiv.org/abs/2303.09167v1
- Date: Thu, 16 Mar 2023 09:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:18:51.616313
- Title: Emotional Reaction Intensity Estimation Based on Multimodal Data
- Title(参考訳): マルチモーダルデータに基づく感情反応強度推定
- Authors: Shangfei Wang, Jiaqiang Wu, Feiyi Zheng, Xin Li, Xuewei Li, Suwen
Wang, Yi Wu, Yanan Chang, Xiangyu Miao
- Abstract要約: 本稿では,感情反応強度(ERI)推定法について紹介する。
発声器が提供するマルチモーダルデータに基づいて,事前学習した異なるモデルを用いて,音響的特徴と視覚的特徴を抽出する。
- 参考スコア(独自算出の注目度): 24.353102762289545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces our method for the Emotional Reaction Intensity (ERI)
Estimation Challenge, in CVPR 2023: 5th Workshop and Competition on Affective
Behavior Analysis in-the-wild (ABAW). Based on the multimodal data provided by
the originazers, we extract acoustic and visual features with different
pretrained models. The multimodal features are mixed together by Transformer
Encoders with cross-modal attention mechnism. In this paper, 1. better features
are extracted with the SOTA pretrained models. 2. Compared with the baseline,
we improve the Pearson's Correlations Coefficient a lot. 3. We process the data
with some special skills to enhance performance ability of our model.
- Abstract(参考訳): 本稿では, CVPR 2023: 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) において, 感情反応強度(ERI)推定チャレンジについて紹介する。
オリジンザザーが提供するマルチモーダルデータに基づき、異なる事前学習されたモデルを用いて音響的特徴と視覚的特徴を抽出する。
マルチモーダル機能は、クロスモーダルアテンションメクニズムを持つトランスフォーマーエンコーダによって混合される。
この論文では
1. SOTA事前訓練モデルにより、より良い特徴を抽出する。
2. ベースラインと比較すると、ピアソン相関係数が大幅に向上する。
3. モデルの性能向上のために, 特別なスキルでデータを処理する。
関連論文リスト
- Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers [0.7496510641958004]
我々はSwin Transformerを拡張して、異なる医用画像モダリティから学習し、下流のパフォーマンスを向上させる。
SwinFUSEと呼ばれるこのモデルは,事前学習中にCT(Computed Tomography)とMRI(Magical Resonance Images)の両方から学習し,補完的な特徴表現をもたらす。
論文 参考訳(メタデータ) (2024-05-21T13:28:32Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - MPRE: Multi-perspective Patient Representation Extractor for Disease
Prediction [3.914545513460964]
疾患予測のための多視点患者表現エクストラクタ(MPRE)を提案する。
具体的には、動的特徴の傾向と変動情報を抽出する周波数変換モジュール(FTM)を提案する。
2D Multi-Extraction Network (2D MEN) において、傾向と変動に基づいて2次元時間テンソルを形成する。
また,FODAM(First-Order difference Attention Mechanism)も提案する。
論文 参考訳(メタデータ) (2024-01-01T13:52:05Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。
空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。
本手法は,公式な検証セットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-16T10:31:40Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。