論文の概要: Video-based Facial Expression Recognition using Graph Convolutional
Networks
- arxiv url: http://arxiv.org/abs/2010.13386v1
- Date: Mon, 26 Oct 2020 07:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:15:24.789595
- Title: Video-based Facial Expression Recognition using Graph Convolutional
Networks
- Title(参考訳): グラフ畳み込みネットワークを用いたビデオ表情認識
- Authors: Daizong Liu, Hongting Zhang, Pan Zhou
- Abstract要約: 我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
- 参考スコア(独自算出の注目度): 57.980827038988735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression recognition (FER), aiming to classify the expression
present in the facial image or video, has attracted a lot of research interests
in the field of artificial intelligence and multimedia. In terms of video based
FER task, it is sensible to capture the dynamic expression variation among the
frames to recognize facial expression. However, existing methods directly
utilize CNN-RNN or 3D CNN to extract the spatial-temporal features from
different facial units, instead of concentrating on a certain region during
expression variation capturing, which leads to limited performance in FER. In
our paper, we introduce a Graph Convolutional Network (GCN) layer into a common
CNN-RNN based model for video-based FER. First, the GCN layer is utilized to
learn more significant facial expression features which concentrate on certain
regions after sharing information between extracted CNN features of nodes.
Then, a LSTM layer is applied to learn long-term dependencies among the GCN
learned features to model the variation. In addition, a weight assignment
mechanism is also designed to weight the output of different nodes for final
classification by characterizing the expression intensities in each frame. To
the best of our knowledge, it is the first time to use GCN in FER task. We
evaluate our method on three widely-used datasets, CK+, Oulu-CASIA and MMI, and
also one challenging wild dataset AFEW8.0, and the experimental results
demonstrate that our method has superior performance to existing methods.
- Abstract(参考訳): 表情認識(fer)は、顔画像やビデオに存在する表情を分類することを目的としており、人工知能やマルチメディアの分野で多くの研究関心を集めている。
映像ベースのFERタスクでは、フレーム間の動的表現変動をキャプチャして顔の表情を認識するのが賢明である。
しかし,既存の手法では,CNN-RNNや3D CNNを直接利用して,表情変化のキャプチャ中に特定の領域に集中するのではなく,異なる顔ユニットから空間的特徴を抽出する。
本稿では,ビデオベースのferのための共通cnn-rnnモデルにグラフ畳み込みネットワーク(gcn)層を導入する。
まず、GCN層を利用して、抽出したノードのCNN特徴間で情報を共有した後、特定の領域に集中するより重要な表情特徴を学習する。
次にLSTMレイヤを適用して,GCN学習機能間の長期依存関係を学習し,変動をモデル化する。
さらに、各フレームにおける表現強度を特徴付けることにより、最終分類のための異なるノードの出力を重み付けする重み付け機構も設計されている。
私たちの知る限りでは、FERタスクでGCNを使用するのは初めてです。
提案手法は, CK+, Oulu-CASIA, MMIの3つの大規模データセットと, AFEW8.0の挑戦的なワイルドデータセットを用いて評価し, 本手法が既存手法よりも優れた性能を示した。
関連論文リスト
- MSSTNet: A Multi-Scale Spatio-Temporal CNN-Transformer Network for Dynamic Facial Expression Recognition [4.512502015606517]
マルチスケール時間CNN-Transformer Network (MSSTNet) を提案する。
提案手法はCNNが抽出した空間的異なるスケールを多スケール埋め込み層(MELayer)に供給する。
MELayerは、マルチスケール空間情報を抽出し、これらの特徴を符号化し、トランスフォーマー(T-Former)に送信する。
論文 参考訳(メタデータ) (2024-04-12T12:30:48Z) - Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in
the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。
我々はCNNを用いて各フレームを視覚的特徴系列に変換する。
実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文 参考訳(メタデータ) (2022-05-10T08:47:15Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Facial expression and attributes recognition based on multi-task
learning of lightweight neural networks [9.162936410696409]
顔の識別と顔の属性の分類のための軽量畳み込みニューラルネットワークのマルチタスクトレーニングを検討する。
顔の表情を予測するためには,これらのネットワークを微調整する必要がある。
MobileNet、EfficientNet、RexNetアーキテクチャに基づくいくつかのモデルが提示される。
論文 参考訳(メタデータ) (2021-03-31T14:21:04Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。