論文の概要: Less is More: Facial Landmarks can Recognize a Spontaneous Smile
- arxiv url: http://arxiv.org/abs/2210.04240v1
- Date: Sun, 9 Oct 2022 12:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:38:52.528035
- Title: Less is More: Facial Landmarks can Recognize a Spontaneous Smile
- Title(参考訳): less is more: 顔のランドマークは自発的な笑顔を認識できる
- Authors: Md. Tahrim Faroque, Yan Yang, Md Zakir Hossain, Sheikh Motahar Naim,
Nabeel Mohammed, Shafin Rahman,
- Abstract要約: MeshSmileNetは、スマイルベラシティ分類のためのトランスフォーマーアーキテクチャである。
我々は、識別的特徴を発見するためにランドマークの相対性と軌道を考える。
このアイデアにより、UVA-NEMO、BBC、MMI Facial Expression、SPOSデータセット上での最先端のパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 7.401833869874254
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Smile veracity classification is a task of interpreting social interactions.
Broadly, it distinguishes between spontaneous and posed smiles. Previous
approaches used hand-engineered features from facial landmarks or considered
raw smile videos in an end-to-end manner to perform smile classification tasks.
Feature-based methods require intervention from human experts on feature
engineering and heavy pre-processing steps. On the contrary, raw smile video
inputs fed into end-to-end models bring more automation to the process with the
cost of considering many redundant facial features (beyond landmark locations)
that are mainly irrelevant to smile veracity classification. It remains unclear
to establish discriminative features from landmarks in an end-to-end manner. We
present a MeshSmileNet framework, a transformer architecture, to address the
above limitations. To eliminate redundant facial features, our landmarks input
is extracted from Attention Mesh, a pre-trained landmark detector. Again, to
discover discriminative features, we consider the relativity and trajectory of
the landmarks. For the relativity, we aggregate facial landmark that
conceptually formats a curve at each frame to establish local spatial features.
For the trajectory, we estimate the movements of landmark composed features
across time by self-attention mechanism, which captures pairwise dependency on
the trajectory of the same landmark. This idea allows us to achieve
state-of-the-art performances on UVA-NEMO, BBC, MMI Facial Expression, and SPOS
datasets.
- Abstract(参考訳): smile veracity classificationは、社会的相互作用を解釈するタスクである。
大まかに言えば、自然とポーズの笑顔を区別する。
以前のアプローチでは、笑顔分類タスクを実行するために、顔のランドマークや生のスマイルビデオから手作りの機能をエンドツーエンドで使用していた。
特徴に基づく手法は、機能エンジニアリングと重い前処理ステップに関する人間の専門家の介入を必要とする。
逆に、エンド・ツー・エンドのモデルに入力された生のスマイルビデオは、主にスマイルの正確さの分類とは無関係な多くの冗長な顔の特徴(ランドマークの場所以外の)を考慮し、プロセスにもっと自動化をもたらす。
終末的な方法でランドマークから差別的な特徴を確立することは、まだ不明である。
上記の制限に対処するために,トランスフォーマーアーキテクチャである meshsmilenet framework を提案する。
余分な顔の特徴を排除するため、予め訓練されたランドマーク検出器であるAttention Meshからランドマーク入力を抽出する。
また、識別的特徴を発見するために、ランドマークの相対性理論と軌道を考える。
相対性理論では,局所的な空間的特徴を確立するために,各フレームに曲線を概念的に形成する顔のランドマークを集約する。
軌道について,同一のランドマークの軌跡に一対の依存性を捉えた自己照準機構により,時間にまたがるランドマーク構成特徴の移動を推定する。
このアイデアにより、UVA-NEMO、BBC、MMI Facial Expression、SPOSデータセット上での最先端のパフォーマンスを実現することができる。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - LoCUS: Learning Multiscale 3D-consistent Features from Posed Images [18.648772607057175]
我々は、監督なしに多目的な神経表現を訓練する。
検索セットを慎重に構築することで、検索と再利用のバランスをとることができる。
スパース,マルチスケール,セマンティック空間マップの作成結果を示す。
論文 参考訳(メタデータ) (2023-10-02T11:11:23Z) - HTNet for micro-expression recognition [42.357788515558816]
顔の筋肉の動きを認識することは、微小な表情認識の領域において重要な課題である。
顔面筋運動の重要な領域を特定するために階層型トランスフォーマーネットワーク(HTNet)を提案する。
4つの公開されているマイクロ圧縮データセットの実験では、提案手法が従来の手法よりも大きなマージンで優れていることが示されている。
論文 参考訳(メタデータ) (2023-07-27T06:04:20Z) - Towards Accurate Facial Landmark Detection via Cascaded Transformers [14.74021483826222]
本稿では,カスケードトランスを用いた正確な顔のランドマーク検出手法を提案する。
トランスにおける自己注意によって、我々のモデルは本質的にランドマーク間の構造化された関係を活用できる。
このモデルでは, 目標ランドマークの周囲に最も関連性の高い画像の特徴を抽出し, 座標予測を行う。
論文 参考訳(メタデータ) (2022-08-23T08:42:13Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - RePFormer: Refinement Pyramid Transformer for Robust Facial Landmark
Detection [131.1478251760399]
顔のランドマーク検出タスクをピラミッド記憶に沿ったランドマーククエリの精製として定式化する。
具体的には、ピラミッドトランスフォーマーヘッド(PTH)を導入し、ランドマーク間の関係とランドマークとクロススケールコンテキストの間の異種関係の両方を構築する。
動的ランドマークリファインメント(DLR)モジュールは、ランドマークレグレッションをエンドツーエンドのリファインメント手順に分解するために設計されている。
論文 参考訳(メタデータ) (2022-07-08T14:12:26Z) - Geometric Graph Representation with Learnable Graph Structure and
Adaptive AU Constraint for Micro-Expression Recognition [38.579316014796945]
マイクロ表現認識(MER)は、マイクロ表現(ME)の不随意性が真の感情を明らかにするため、有用である。
本稿では,顔のランドマークの寄与について検討し,顔のランドマーク情報のみを用いてMEを効率的に認識するための新しい枠組みを構築した。
実験により,提案手法は計算コストを大幅に削減し,競争力や性能に優れることを示した。
論文 参考訳(メタデータ) (2022-05-01T02:20:43Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - HumanGPS: Geodesic PreServing Feature for Dense Human Correspondences [60.89437526374286]
先行芸術はフレーム間の小さな動きを仮定するか、または大きな動きや視覚的に曖昧な身体部分を扱うことができないローカル記述子に依存します。
本稿では,各画素を特徴空間にマッピングし,特徴距離が画素間の測地距離を反映する深層学習フレームワークを提案する。
セマンティックアノテーションがなければ、提案する埋め込みは自動的に学習し、視覚的に類似した部分を区別し、異なる主題を統一された機能空間にまとめる。
論文 参考訳(メタデータ) (2021-03-29T12:43:44Z) - RealSmileNet: A Deep End-To-End Network for Spontaneous and Posed Smile
Recognition [12.649576554639445]
これらの問題に対処するために,エンド・ツー・エンドのディープラーニングモデルについて検討する。
我々の完全自動化モデルは高速で、一連の畳み込み層とConvLSTM層をスクラッチからトレーニングすることで特徴抽出プロセスを学びます。
4つのデータセットに対する実験は,提案モデルの堅牢性と一般化を実証するものである。
論文 参考訳(メタデータ) (2020-10-07T06:23:38Z) - Orientation Attentive Robotic Grasp Synthesis with Augmented Grasp Map
Representation [62.79160608266713]
物体の形態学的特徴は、ロボットの把握の視覚的学習を阻害する、幅広い可視的把握方向を提供する可能性がある。
既存のグリップ生成アプローチを呪い、グリップポイント毎に大きく異なる向きのアノテーションを集約することにより、不連続グリップマップを構築する。
そこで本研究では,角度空間を複数のビンに分割することで,方向を局所的に歪曲する,画素ワイズ合成に適した拡張型グリップマップ表現を提案する。
論文 参考訳(メタデータ) (2020-06-09T08:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。