論文の概要: Emotion Recognition on large video dataset based on Convolutional
Feature Extractor and Recurrent Neural Network
- arxiv url: http://arxiv.org/abs/2006.11168v1
- Date: Fri, 19 Jun 2020 14:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:16:35.094054
- Title: Emotion Recognition on large video dataset based on Convolutional
Feature Extractor and Recurrent Neural Network
- Title(参考訳): 畳み込み特徴エクストラクタとリカレントニューラルネットワークに基づく大規模ビデオデータセットの感情認識
- Authors: Denis Rangulov, Muhammad Fahim
- Abstract要約: 我々のモデルは、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて、ビデオデータ上での次元的感情を予測する。
実験は、最新のAff-Wild2データベースを含む、公開データセットで実施されている。
- 参考スコア(独自算出の注目度): 0.2855485723554975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many years, the emotion recognition task has remained one of the most
interesting and important problems in the field of human-computer interaction.
In this study, we consider the emotion recognition task as a classification as
well as a regression task by processing encoded emotions in different datasets
using deep learning models. Our model combines convolutional neural network
(CNN) with recurrent neural network (RNN) to predict dimensional emotions on
video data. At the first step, CNN extracts feature vectors from video frames.
In the second step, we fed these feature vectors to train RNN for exploiting
the temporal dynamics of video. Furthermore, we analyzed how each neural
network contributes to the system's overall performance. The experiments are
performed on publicly available datasets including the largest modern Aff-Wild2
database. It contains over sixty hours of video data. We discovered the problem
of overfitting of the model on an unbalanced dataset with an illustrative
example using confusion matrices. The problem is solved by downsampling
technique to balance the dataset. By significantly decreasing training data, we
balance the dataset, thereby, the overall performance of the model is improved.
Hence, the study qualitatively describes the abilities of deep learning models
exploring enough amount of data to predict facial emotions. Our proposed method
is implemented using Tensorflow Keras.
- Abstract(参考訳): 長年にわたり、感情認識タスクは人間とコンピュータの相互作用の分野で最も興味深く重要な問題の1つとして残されてきた。
本研究では,ディープラーニングモデルを用いて,異なるデータセットで符号化された感情を処理し,感情認識タスクを分類し,回帰タスクとする。
本モデルでは,畳み込みニューラルネットワーク(cnn)とリカレントニューラルネットワーク(rnn)を組み合わせて,映像データから次元感情を予測する。
最初のステップでは、CNNはビデオフレームから特徴ベクトルを抽出する。
第2のステップでは、ビデオの時間的ダイナミクスを活用するために、これらの特徴ベクトルをRNNのトレーニングに投入しました。
さらに,各ニューラルネットワークがシステム全体のパフォーマンスにどのように寄与するかを分析した。
実験は、最新のAff-Wild2データベースを含む公開データセットで実施されている。
60時間以上のビデオデータを含んでいる。
混乱行列を用いた図解例を用いて, モデルが不均衡なデータセット上で過度に適合する問題を発見した。
この問題はデータセットのバランスをとるためにダウンサンプリング技術によって解決される。
トレーニングデータの大幅な削減により,データセットのバランスが向上し,モデル全体のパフォーマンスが向上する。
この研究は、顔の感情を予測するのに十分な量のデータを探索する深層学習モデルの能力を質的に記述している。
提案手法はtensorflow kerasを用いて実装する。
関連論文リスト
- Dynamic Analysis and an Eigen Initializer for Recurrent Neural Networks [0.0]
繰り返しニューラルネットワークにおける隠れ状態のダイナミクスについて検討する。
重み行列の固有分解に基づいて隠れ状態空間を解析するための新しい視点を提案する。
本稿では,固有解析に基づく長期依存の説明を行う。
論文 参考訳(メタデータ) (2023-07-28T17:14:58Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Human activity recognition using deep learning approaches and single
frame cnn and convolutional lstm [0.0]
我々は、ビデオから人間の行動を認識するために、単一のフレーム畳み込みニューラルネットワーク(CNN)と畳み込み長短期記憶という、深層学習に基づく2つのアプローチを探索する。
2つのモデルは、ベンチマークアクション認識データセットであるUCF50と、実験のために作成された別のデータセットでトレーニングされ、評価された。
どちらのモデルも精度は良いが、単一のフレームCNNモデルはUCF50データセットで99.8%の精度で畳み込みLSTMモデルより優れている。
論文 参考訳(メタデータ) (2023-04-18T01:33:29Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Backbones-Review: Feature Extraction Networks for Deep Learning and Deep
Reinforcement Learning Approaches [3.255610188565679]
CNNは、大規模なデータサイズに取り組むだけでなく、特定のタスクのさまざまなシナリオをカバーすることができる。
多くのネットワークが提案され、あらゆるAIタスクでDLモデルに使用される有名なネットワークとなっている。
バックボーンは、他の多くのタスクでトレーニングされた既知のネットワークであり、その効果を実証する。
論文 参考訳(メタデータ) (2022-06-16T09:18:34Z) - Lost Vibration Test Data Recovery Using Convolutional Neural Network: A
Case Study [0.0]
本稿では,アラモサキャニオン橋のCNNアルゴリズムを実構造として提案する。
3つの異なるCNNモデルは、1つと2つの故障したセンサーを予測するものとされた。
畳み込み層を追加することによりモデルの精度が向上した。
論文 参考訳(メタデータ) (2022-04-11T23:24:03Z) - Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data
Augmentation and Deep Ensemble Learning [2.1446056201053185]
我々は最近のSOTA(State-of-the-art)3D CNNの広範なベンチマークを提案し、データ拡張と深層アンサンブル学習の利点も評価した。
年齢予測,性別分類,統合失調症診断の3つの課題について,N=10kスキャンを含む多地点の脳解剖学的MRIデータセットを用いて実験を行った。
その結果,VBM画像の予測精度は擬似RAWデータよりも有意に向上した。
DenseNetとSmall-DenseNetは、私たちが提案したより軽量なバージョンで、すべてのデータレシエーションのパフォーマンスにおいて優れた妥協を提供する。
論文 参考訳(メタデータ) (2021-06-02T13:00:35Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。