論文の概要: A Comparison of Time-based Models for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.13076v1
- Date: Thu, 22 Jun 2023 17:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 13:17:25.645056
- Title: A Comparison of Time-based Models for Multimodal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のための時間モデルの比較
- Authors: Ege Kesim, Selahattin Serdar Helli, Sena Nur Cavsak
- Abstract要約: マルチモーダル感情認識における異なるシーケンスモデルの性能を比較した。
0.640 の GRU ベースのアーキテクチャは F1 スコア、LSTM ベースのアーキテクチャは 0.699 の精度で、感度は 0.620 の Max Pooling ベースのアーキテクチャでは最高の結果を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition has become an important research topic in the field of
human-computer interaction. Studies on sound and videos to understand emotions
focused mainly on analyzing facial expressions and classified 6 basic emotions.
In this study, the performance of different sequence models in multi-modal
emotion recognition was compared. The sound and images were first processed by
multi-layered CNN models, and the outputs of these models were fed into various
sequence models. The sequence model is GRU, Transformer, LSTM and Max Pooling.
Accuracy, precision, and F1 Score values of all models were calculated. The
multi-modal CREMA-D dataset was used in the experiments. As a result of the
comparison of the CREMA-D dataset, GRU-based architecture with 0.640 showed the
best result in F1 score, LSTM-based architecture with 0.699 in precision
metric, while sensitivity showed the best results over time with Max
Pooling-based architecture with 0.620. As a result, it has been observed that
the sequence models compare performances close to each other.
- Abstract(参考訳): 感情認識は人間とコンピュータの相互作用の分野で重要な研究トピックとなっている。
表情の分析と6つの基本的な感情の分類を中心にした感情理解のための音声とビデオの研究
本研究では,マルチモーダル感情認識における異なるシーケンスモデルの性能を比較した。
音と画像はまず多層CNNモデルにより処理され、これらのモデルの出力は様々なシーケンスモデルに供給された。
シーケンスモデルはGRU、Transformer、LSTM、Max Poolingである。
各モデルの精度,精度,F1スコア値を算出した。
実験ではマルチモーダル CREMA-D データセットが使用された。
crema-dデータセットの比較の結果、gruベースのアーキテクチャと0.640のアーキテクチャはf1スコア、lstmベースのアーキテクチャは0.699の精度メトリック、感度は0.620のmax poolingベースのアーキテクチャで時間とともに最高の結果を示した。
その結果、シーケンスモデルが互いに近いパフォーマンスを比較することが観察されている。
関連論文リスト
- Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Unveiling the Human-like Similarities of Automatic Facial Expression Recognition: An Empirical Exploration through Explainable AI [0.562479170374811]
本研究は,12種類の異なるネットワークを比較し,ディープニューラルネットワークと人間の知覚の類似性を検討することを目的とする。
我々は、革新的なグローバルな説明可能なAI手法を用いて、熱マップを生成し、6つの表情で訓練された12のネットワークにとって重要な顔領域を明らかにする。
発見は、人間とAIの表情認識が限定的に一致していることを示し、ネットワークアーキテクチャが類似性に影響を与えることを示唆している。
論文 参考訳(メタデータ) (2024-01-22T10:52:02Z) - New Approach for an Affective Computing-Driven Quality of Experience
(QoE) Prediction [0.0]
本稿では,感情型コンピュータ駆動のQuality of Experience(QoE)予測の新しいモデルを提案する。
The best results were obtained with a LSTM based model, presented a F1-score from 68% to 78%。
論文 参考訳(メタデータ) (2023-11-05T13:21:07Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文 参考訳(メタデータ) (2022-02-18T15:44:14Z) - Facial Emotion Recognition using Deep Residual Networks in Real-World
Environments [5.834678345946704]
そこで本研究では,Wild内および大規模に収集されたビデオデータセットに基づいて訓練された顔特徴抽出モデルを提案する。
データセットは100万のラベル付きフレームと2,616万の被験者で構成されている。
感情認識領域において時間情報は重要であるため、LSTM細胞を用いてデータの時間的ダイナミクスを捉える。
論文 参考訳(メタデータ) (2021-11-04T10:08:22Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。