論文の概要: A Comparison of Time-based Models for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.13076v1
- Date: Thu, 22 Jun 2023 17:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 13:17:25.645056
- Title: A Comparison of Time-based Models for Multimodal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のための時間モデルの比較
- Authors: Ege Kesim, Selahattin Serdar Helli, Sena Nur Cavsak
- Abstract要約: マルチモーダル感情認識における異なるシーケンスモデルの性能を比較した。
0.640 の GRU ベースのアーキテクチャは F1 スコア、LSTM ベースのアーキテクチャは 0.699 の精度で、感度は 0.620 の Max Pooling ベースのアーキテクチャでは最高の結果を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition has become an important research topic in the field of
human-computer interaction. Studies on sound and videos to understand emotions
focused mainly on analyzing facial expressions and classified 6 basic emotions.
In this study, the performance of different sequence models in multi-modal
emotion recognition was compared. The sound and images were first processed by
multi-layered CNN models, and the outputs of these models were fed into various
sequence models. The sequence model is GRU, Transformer, LSTM and Max Pooling.
Accuracy, precision, and F1 Score values of all models were calculated. The
multi-modal CREMA-D dataset was used in the experiments. As a result of the
comparison of the CREMA-D dataset, GRU-based architecture with 0.640 showed the
best result in F1 score, LSTM-based architecture with 0.699 in precision
metric, while sensitivity showed the best results over time with Max
Pooling-based architecture with 0.620. As a result, it has been observed that
the sequence models compare performances close to each other.
- Abstract(参考訳): 感情認識は人間とコンピュータの相互作用の分野で重要な研究トピックとなっている。
表情の分析と6つの基本的な感情の分類を中心にした感情理解のための音声とビデオの研究
本研究では,マルチモーダル感情認識における異なるシーケンスモデルの性能を比較した。
音と画像はまず多層CNNモデルにより処理され、これらのモデルの出力は様々なシーケンスモデルに供給された。
シーケンスモデルはGRU、Transformer、LSTM、Max Poolingである。
各モデルの精度,精度,F1スコア値を算出した。
実験ではマルチモーダル CREMA-D データセットが使用された。
crema-dデータセットの比較の結果、gruベースのアーキテクチャと0.640のアーキテクチャはf1スコア、lstmベースのアーキテクチャは0.699の精度メトリック、感度は0.620のmax poolingベースのアーキテクチャで時間とともに最高の結果を示した。
その結果、シーケンスモデルが互いに近いパフォーマンスを比較することが観察されている。
関連論文リスト
- Role of the Pretraining and the Adaptation data sizes for low-resource real-time MRI video segmentation [26.69134548708678]
実時間MRI(Real-time Magnetic Resonance Imaging)は、発声時の声道の完全な視認を提供するため、音声合成研究において頻繁に用いられる。
本研究では,ATB分割作業におけるSegNetとUNetモデルを用いた声道運動解析におけるrtMRIの有効性について検討した。
論文 参考訳(メタデータ) (2025-02-20T10:15:43Z) - Emotion estimation from video footage with LSTM [0.0]
本稿では,ライブラリMediaPipeが生成したブレンド・サップを処理するLSTMモデルを提案し,顔の表情から主感情を推定する。
このモデルはFER2013データセットに基づいてトレーニングされ、71%の精度と62%のf1スコアを提供する。
論文 参考訳(メタデータ) (2025-01-23T07:35:47Z) - RealDiffFusionNet: Neural Controlled Differential Equation Informed Multi-Head Attention Fusion Networks for Disease Progression Modeling Using Real-World Data [0.0]
本稿では,RealDiffFusionNetという新しい深層学習手法を提案する。
ニューラル制御された微分方程式(Neural Controlled Differential Equations, ニューラルCDE)と、関連するマルチモーダルコンテキストを整合させるマルチヘッドアテンションを備えている。
CDEとマルチモーダルデータを利用して、病気の進行を正確に予測することは約束されている。
論文 参考訳(メタデータ) (2025-01-02T22:50:57Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - New Approach for an Affective Computing-Driven Quality of Experience
(QoE) Prediction [0.0]
本稿では,感情型コンピュータ駆動のQuality of Experience(QoE)予測の新しいモデルを提案する。
The best results were obtained with a LSTM based model, presented a F1-score from 68% to 78%。
論文 参考訳(メタデータ) (2023-11-05T13:21:07Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。