論文の概要: HTNet for micro-expression recognition
- arxiv url: http://arxiv.org/abs/2307.14637v1
- Date: Thu, 27 Jul 2023 06:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:39:55.125716
- Title: HTNet for micro-expression recognition
- Title(参考訳): マイクロ圧縮認識のためのHTNet
- Authors: Zhifeng Wang and Kaihao Zhang and Wenhan Luo and Ramesh
Sankaranarayana
- Abstract要約: 顔の筋肉の動きを認識することは、微小な表情認識の領域において重要な課題である。
顔面筋運動の重要な領域を特定するために階層型トランスフォーマーネットワーク(HTNet)を提案する。
4つの公開されているマイクロ圧縮データセットの実験では、提案手法が従来の手法よりも大きなマージンで優れていることが示されている。
- 参考スコア(独自算出の注目度): 42.357788515558816
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Facial expression is related to facial muscle contractions and different
muscle movements correspond to different emotional states. For micro-expression
recognition, the muscle movements are usually subtle, which has a negative
impact on the performance of current facial emotion recognition algorithms.
Most existing methods use self-attention mechanisms to capture relationships
between tokens in a sequence, but they do not take into account the inherent
spatial relationships between facial landmarks. This can result in sub-optimal
performance on micro-expression recognition tasks.Therefore, learning to
recognize facial muscle movements is a key challenge in the area of
micro-expression recognition. In this paper, we propose a Hierarchical
Transformer Network (HTNet) to identify critical areas of facial muscle
movement. HTNet includes two major components: a transformer layer that
leverages the local temporal features and an aggregation layer that extracts
local and global semantical facial features. Specifically, HTNet divides the
face into four different facial areas: left lip area, left eye area, right eye
area and right lip area. The transformer layer is used to focus on representing
local minor muscle movement with local self-attention in each area. The
aggregation layer is used to learn the interactions between eye areas and lip
areas. The experiments on four publicly available micro-expression datasets
show that the proposed approach outperforms previous methods by a large margin.
The codes and models are available at:
\url{https://github.com/wangzhifengharrison/HTNet}
- Abstract(参考訳): 表情は顔面筋収縮と関連し、異なる筋運動は異なる感情状態に対応する。
微小な表情認識では、筋肉の動きは通常微妙であり、現在の顔の感情認識アルゴリズムの性能に悪影響を及ぼす。
既存のほとんどの方法は、シーケンス内のトークン間の関係をキャプチャするために自己注意機構を使用しているが、顔のランドマーク間の固有の空間的関係を考慮していない。
これにより, マイクロ圧縮認識タスクにおける準最適性能が得られ, 従来, 顔の筋肉の動きを認識することは, マイクロ圧縮認識の領域において重要な課題である。
本稿では,顔面筋運動の重要な領域を特定するために階層型トランスフォーマーネットワーク(HTNet)を提案する。
HTNetには2つの主要なコンポーネントが含まれている。ローカルの時間的特徴を活用するトランスフォーマー層と、ローカルとグローバルのセマンティックな顔の特徴を抽出するアグリゲーション層だ。
具体的には、HTNetは顔を4つの異なる顔領域(左唇領域、左目領域、右目領域、右唇領域)に分割する。
変圧器層は、各領域における局所的自己着脱を伴う局所的小筋運動の表現に焦点をあてる。
凝集層は、眼領域と唇領域の間の相互作用を学ぶために使用される。
公開された4つのマイクロ圧縮データセットの実験は、提案手法が従来の手法よりも大きなマージンで優れていることを示している。
コードとモデルは以下の通りである。 \url{https://github.com/wangzhifengharrison/HTNet}
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Emotional Conversation: Empowering Talking Faces with Cohesive Expression, Gaze and Pose Generation [12.044308738509402]
3次元顔のランドマークを中間変数として用いた2段階の音声駆動音声顔生成フレームワークを提案する。
このフレームワークは、自己指導型学習を通じて、表現、視線、感情との協調的なアライメントを実現する。
我々のモデルは、視覚的品質と感情的アライメントの両方において、最先端のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2024-06-12T06:00:00Z) - Self-Supervised Facial Representation Learning with Facial Region
Awareness [13.06996608324306]
自己教師付き事前学習は、様々な視覚的タスクに役立つ伝達可能な表現を学習するのに有効であることが証明されている。
この目標に向けての最近の取り組みは、各顔画像を全体として扱うことに限定されている。
本研究では,一貫したグローバルおよびローカルな顔表現を学習するための,自己教師型顔表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-04T15:48:56Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Less is More: Facial Landmarks can Recognize a Spontaneous Smile [7.401833869874254]
MeshSmileNetは、スマイルベラシティ分類のためのトランスフォーマーアーキテクチャである。
我々は、識別的特徴を発見するためにランドマークの相対性と軌道を考える。
このアイデアにより、UVA-NEMO、BBC、MMI Facial Expression、SPOSデータセット上での最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-10-09T12:21:28Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - I Only Have Eyes for You: The Impact of Masks On Convolutional-Based
Facial Expression Recognition [78.07239208222599]
今回提案したFaceChannelがマスクを持つ人からの表情認識にどのように適応するかを評価します。
また、制約された社会的相互作用シナリオにおける顔の特徴の変化を学習し、組み合わせるためのFaceChannelの本質的な能力を示すために、特定の機能レベルの可視化も行います。
論文 参考訳(メタデータ) (2021-04-16T20:03:30Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z) - Recognizing Micro-Expression in Video Clip with Adaptive Key-Frame
Mining [18.34213657996624]
マイクロ・エクスプレッションでは、顔の動きは過渡的であり、時間を通して緩やかに局所化される。
適応鍵フレームマイニングネットワーク(AKMNet)と呼ばれる新しいエンドツーエンドディープラーニングアーキテクチャを提案する。
AKMNetは、自己学習した局所鍵フレームの空間的特徴と、その大域的時間的ダイナミクスを組み合わせることで、差別的時間的表現を学習することができる。
論文 参考訳(メタデータ) (2020-09-19T07:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。