Fugu-MT 論文翻訳(概要): Emotional Reaction Intensity Estimation Based on Multimodal Data

論文の概要: Emotional Reaction Intensity Estimation Based on Multimodal Data

arxiv url: http://arxiv.org/abs/2303.09167v1
Date: Thu, 16 Mar 2023 09:14:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 16:18:51.616313
Title: Emotional Reaction Intensity Estimation Based on Multimodal Data
Title（参考訳）: マルチモーダルデータに基づく感情反応強度推定
Authors: Shangfei Wang, Jiaqiang Wu, Feiyi Zheng, Xin Li, Xuewei Li, Suwen Wang, Yi Wu, Yanan Chang, Xiangyu Miao
Abstract要約: 本稿では,感情反応強度(ERI)推定法について紹介する。発声器が提供するマルチモーダルデータに基づいて,事前学習した異なるモデルを用いて,音響的特徴と視覚的特徴を抽出する。
参考スコア（独自算出の注目度）: 24.353102762289545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces our method for the Emotional Reaction Intensity (ERI) Estimation Challenge, in CVPR 2023: 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). Based on the multimodal data provided by the originazers, we extract acoustic and visual features with different pretrained models. The multimodal features are mixed together by Transformer Encoders with cross-modal attention mechnism. In this paper, 1. better features are extracted with the SOTA pretrained models. 2. Compared with the baseline, we improve the Pearson's Correlations Coefficient a lot. 3. We process the data with some special skills to enhance performance ability of our model.
Abstract（参考訳）: 本稿では, CVPR 2023: 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) において, 感情反応強度(ERI)推定チャレンジについて紹介する。オリジンザザーが提供するマルチモーダルデータに基づき、異なる事前学習されたモデルを用いて音響的特徴と視覚的特徴を抽出する。マルチモーダル機能は、クロスモーダルアテンションメクニズムを持つトランスフォーマーエンコーダによって混合される。この論文では 1. SOTA事前訓練モデルにより、より良い特徴を抽出する。 2. ベースラインと比較すると、ピアソン相関係数が大幅に向上する。 3. モデルの性能向上のために, 特別なスキルでデータを処理する。

関連論文リスト

Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning [16.04558746520946]
強化学習(Reinforcement Learning, RL)は、エージェントと環境との相互作用を通じて得られる累積報酬の最大化に焦点を当てている。我々は、複数の事前学習モデルの埋め込みを組み合わせ、リッチな状態表現を形成する新しいアーキテクチャである、Weight Sharing Attention (WSA)を提案する。
論文参考訳（メタデータ） (2025-07-09T18:13:52Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-04-01T12:06:42Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。 IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文参考訳（メタデータ） (2024-07-22T15:35:09Z)
Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers [0.7496510641958004]
我々はSwin Transformerを拡張して、異なる医用画像モダリティから学習し、下流のパフォーマンスを向上させる。 SwinFUSEと呼ばれるこのモデルは,事前学習中にCT(Computed Tomography)とMRI(Magical Resonance Images)の両方から学習し,補完的な特徴表現をもたらす。
論文参考訳（メタデータ） (2024-05-21T13:28:32Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
MPRE: Multi-perspective Patient Representation Extractor for Disease Prediction [3.914545513460964]
疾患予測のための多視点患者表現エクストラクタ(MPRE)を提案する。具体的には、動的特徴の傾向と変動情報を抽出する周波数変換モジュール(FTM)を提案する。 2D Multi-Extraction Network (2D MEN) において、傾向と変動に基づいて2次元時間テンソルを形成する。また,FODAM(First-Order difference Attention Mechanism)も提案する。
論文参考訳（メタデータ） (2024-01-01T13:52:05Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。本手法は,公式な検証セットにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-03-16T10:31:40Z)
MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-10-27T09:57:00Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。