論文の概要: TimeConvNets: A Deep Time Windowed Convolution Neural Network Design for
Real-time Video Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2003.01791v1
- Date: Tue, 3 Mar 2020 20:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 23:01:30.477838
- Title: TimeConvNets: A Deep Time Windowed Convolution Neural Network Design for
Real-time Video Facial Expression Recognition
- Title(参考訳): TimeConvNets:リアルタイム映像表情認識のためのDeep Time Windowed Convolution Neural Network設計
- Authors: James Ren Hou Lee and Alexander Wong
- Abstract要約: 本研究では、リアルタイムな映像表情認識を目的とした、新しい時間窓付き畳み込みニューラルネットワーク設計(TimeConvNets)について検討する。
我々は,TimeConvNetsが表情の過度なニュアンスを捕捉し,低い推論時間を維持しながら分類精度を高めることができることを示した。
- 参考スコア(独自算出の注目度): 93.0013343535411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A core challenge faced by the majority of individuals with Autism Spectrum
Disorder (ASD) is an impaired ability to infer other people's emotions based on
their facial expressions. With significant recent advances in machine learning,
one potential approach to leveraging technology to assist such individuals to
better recognize facial expressions and reduce the risk of possible loneliness
and depression due to social isolation is the design of computer vision-driven
facial expression recognition systems. Motivated by this social need as well as
the low latency requirement of such systems, this study explores a novel deep
time windowed convolutional neural network design (TimeConvNets) for the
purpose of real-time video facial expression recognition. More specifically, we
explore an efficient convolutional deep neural network design for
spatiotemporal encoding of time windowed video frame sub-sequences and study
the respective balance between speed and accuracy. Furthermore, to evaluate the
proposed TimeConvNet design, we introduce a more difficult dataset called
BigFaceX, composed of a modified aggregation of the extended Cohn-Kanade (CK+),
BAUM-1, and the eNTERFACE public datasets. Different variants of the proposed
TimeConvNet design with different backbone network architectures were evaluated
using BigFaceX alongside other network designs for capturing spatiotemporal
information, and experimental results demonstrate that TimeConvNets can better
capture the transient nuances of facial expressions and boost classification
accuracy while maintaining a low inference time.
- Abstract(参考訳): 自閉症スペクトラム障害(asd)患者の大多数が直面する中核的な課題は、表情に基づいて他人の感情を推測する能力の低下である。
近年の機械学習の進歩により、社会的孤立による孤独感や抑うつのリスクを減らし、表情をよりよく認識する技術を活用するための潜在的なアプローチは、コンピュータビジョンによる表情認識システムの設計である。
この社会的ニーズと、そのようなシステムの低レイテンシ要求により、リアルタイムな映像表情認識を目的とした、新しいディープタイムウィンドウ付き畳み込みニューラルネットワーク設計(TimeConvNets)について検討する。
より具体的には、時間窓付きビデオフレームの時空間符号化のための効率的な畳み込み型ディープニューラルネットワークの設計と、速度と精度のバランスについて検討する。
さらに,提案したTimeConvNetの設計を評価するために,拡張された Cohn-Kanade (CK+), BAUM-1, eNTERFACE の公開データセットを集約した BigFaceX という,より難しいデータセットを導入する。
異なるバックボーンネットワークアーキテクチャを持つTimeConvNet設計の異なるバリエーションを,他のネットワーク設計と併用して時空間情報を取得することで評価し,実験結果から,TimeConvNetsは表情の過渡的なニュアンスを捕捉し,低い推論時間を維持しながら分類精度を向上させることができることを示した。
関連論文リスト
- The Disappearance of Timestep Embedding in Modern Time-Dependent Neural Networks [11.507779310946853]
本稿では、時間依存ニューラルネットワークの時間認識を無効にする時間ステップ埋め込みの脆弱性を報告する。
我々の分析は、この現象の詳細な説明と、根本原因に対処するいくつかの解決策を提供する。
論文 参考訳(メタデータ) (2024-05-23T02:58:23Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Backpropagation with Biologically Plausible Spatio-Temporal Adjustment
For Training Deep Spiking Neural Networks [5.484391472233163]
ディープラーニングの成功は、バックプロパゲーションとは分離できない。
本研究では, 膜電位とスパイクの関係を再考する, 生体可塑性空間調整法を提案する。
次に,生物学的に妥当な時間的調整を提案し,時間的次元のスパイクを横切る誤差を伝搬させる。
論文 参考訳(メタデータ) (2021-10-17T15:55:51Z) - Facial Expressions Recognition with Convolutional Neural Networks [0.0]
ニューラルネットワークを利用して表情認識システム(FER)を実装する。
我々は、追加のトレーニングデータを用いることなく、FER2013データセット上で、最先端のシングルネットワーク精度の70.10%を実証する。
論文 参考訳(メタデータ) (2021-07-19T06:41:00Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文 参考訳(メタデータ) (2020-10-22T17:20:38Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - The FaceChannel: A Light-weight Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
FER自動化のための現在の最先端モデルは、訓練が難しい非常に深いニューラルネットワークに基づいている。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
私たちは、FaceChannelが、FERの現在の最先端技術と比較して、同等の、たとえそうでなくても、パフォーマンスを実現する方法を示します。
論文 参考訳(メタデータ) (2020-04-17T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。