論文の概要: Emotion estimation from video footage with LSTM
- arxiv url: http://arxiv.org/abs/2501.13432v1
- Date: Thu, 23 Jan 2025 07:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:39.634468
- Title: Emotion estimation from video footage with LSTM
- Title(参考訳): LSTMによる映像からの感情推定
- Authors: Samer Attrah,
- Abstract要約: 本稿では,ライブラリMediaPipeが生成したブレンド・サップを処理するLSTMモデルを提案し,顔の表情から主感情を推定する。
このモデルはFER2013データセットに基づいてトレーニングされ、71%の精度と62%のf1スコアを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Emotion estimation in general is a field that has been studied for a long time, and several approaches exist using machine learning. in this paper, we present an LSTM model, that processes the blend-shapes produced by the library MediaPipe, for a face detected in a live stream of a camera, to estimate the main emotion from the facial expressions, this model is trained on the FER2013 dataset and delivers a result of 71% accuracy and 62% f1-score which meets the accuracy benchmark of the FER2013 dataset, with significantly reduced computation costs. https://github.com/ Samir-atra/Emotion_estimation_from_video_footage_with_LSTM_ML_algorithm
- Abstract(参考訳): 感情推定は、一般的に長い間研究されてきた分野であり、機械学習を用いていくつかのアプローチが存在する。
本稿では、カメラのライブストリームで検出された顔に対して、ライブラリMediaPipeが生成したブレンド・サッピーを処理し、顔の表情から主感情を推定するLSTMモデルを、FER2013データセットに基づいて訓練し、FER2013データセットの精度ベンチマークに適合する71%の精度と62%のf1スコアを出力し、計算コストを大幅に削減する。
https://github.com/ Samir-atra/Emotion_estimation_from_video_footage_with_LSTM_ML_algorithm
関連論文リスト
- Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Neuromorphic Valence and Arousal Estimation [28.793519320598865]
我々は、顔から感情状態を予測するためにニューロモルフィックデータを使用します。
トレーニングされたモデルが依然として最先端の結果を得ることができることを実証します。
本稿では,フレームベースとビデオベースの両方において,この課題を解決するための代替モデルを提案する。
論文 参考訳(メタデータ) (2024-01-29T11:13:18Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - A Comparison of Time-based Models for Multimodal Emotion Recognition [0.0]
マルチモーダル感情認識における異なるシーケンスモデルの性能を比較した。
0.640 の GRU ベースのアーキテクチャは F1 スコア、LSTM ベースのアーキテクチャは 0.699 の精度で、感度は 0.620 の Max Pooling ベースのアーキテクチャでは最高の結果を示した。
論文 参考訳(メタデータ) (2023-06-22T17:48:18Z) - Could Giant Pretrained Image Models Extract Universal Representations? [94.97056702288317]
本稿では,多種多様なコンピュータビジョンタスクに適用した凍結事前学習モデルについて述べる。
私たちの研究は、この凍結した設定にどのような事前学習タスクが最適か、凍結した設定を様々な下流タスクに柔軟にする方法、より大きなモデルサイズの影響について、質問に答えています。
論文 参考訳(メタデータ) (2022-11-03T17:57:10Z) - A simple, efficient and scalable contrastive masked autoencoder for
learning visual representations [21.440853288058452]
視覚表現の自己教師型学習のための,シンプルで効率的かつスケーラブルな手法であるCANを紹介する。
我々のフレームワークは、(C)コントラスト学習、(A)マスク付きオートエンコーダ、(N)拡散モデルで使用されるノイズ予測アプローチの最小かつ概念的にクリーンな合成である。
論文 参考訳(メタデータ) (2022-10-30T16:21:22Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Real-time Face Mask Detection in Video Data [0.5371337604556311]
本稿では,リアルタイムビデオストリームから正解と誤用を識別可能な,堅牢なディープラーニングパイプラインを提案する。
2つのアプローチを考案し,その性能と実行時間効率を評価した。
論文 参考訳(メタデータ) (2021-05-05T01:03:34Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。