論文の概要: Multi-Scale Spatio-Temporal Graph Convolutional Network for Facial Expression Spotting
- arxiv url: http://arxiv.org/abs/2403.15994v1
- Date: Sun, 24 Mar 2024 03:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:12:47.734176
- Title: Multi-Scale Spatio-Temporal Graph Convolutional Network for Facial Expression Spotting
- Title(参考訳): 顔表情スポッティングのためのマルチスケール時空間グラフ畳み込みネットワーク
- Authors: Yicheng Deng, Hideaki Hayashi, Hajime Nagahara,
- Abstract要約: 表情スポッティングのためのマルチスケール時空間グラフコナーネットワーク(SpoT-CN)を提案する。
窓長がネットワークの時間的受容野に適応するコンパクトなスライディングウインドウにおいて,顔面筋の短期的および長期的運動を追跡する。
このネットワークは,提案した顔局所進化グラフプーリング(FLGP)を用いて,複数スケールの顔グラフ構造から局所的特徴と大域的特徴を学習する。
- 参考スコア(独自算出の注目度): 11.978551396144532
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Facial expression spotting is a significant but challenging task in facial expression analysis. The accuracy of expression spotting is affected not only by irrelevant facial movements but also by the difficulty of perceiving subtle motions in micro-expressions. In this paper, we propose a Multi-Scale Spatio-Temporal Graph Convolutional Network (SpoT-GCN) for facial expression spotting. To extract more robust motion features, we track both short- and long-term motion of facial muscles in compact sliding windows whose window length adapts to the temporal receptive field of the network. This strategy, termed the receptive field adaptive sliding window strategy, effectively magnifies the motion features while alleviating the problem of severe head movement. The subtle motion features are then converted to a facial graph representation, whose spatio-temporal graph patterns are learned by a graph convolutional network. This network learns both local and global features from multiple scales of facial graph structures using our proposed facial local graph pooling (FLGP). Furthermore, we introduce supervised contrastive learning to enhance the discriminative capability of our model for difficult-to-classify frames. The experimental results on the SAMM-LV and CAS(ME)^2 datasets demonstrate that our method achieves state-of-the-art performance, particularly in micro-expression spotting. Ablation studies further verify the effectiveness of our proposed modules.
- Abstract(参考訳): 表情スポッティングは、表情分析において重要な課題であるが難しい課題である。
表情スポッティングの精度は、無関係な顔の動きだけでなく、微妙な表情の知覚の難しさにも影響される。
本稿では,表情スポッティングのためのマルチスケール時空間グラフ畳み込みネットワーク(SpoT-GCN)を提案する。
よりロバストな動作特徴を抽出するために,窓長がネットワークの時間受容野に適応するコンパクトなスライディングウインドウにおいて,顔の筋肉の短期的および長期的動作を追跡する。
この戦略は受容野適応型スライドウインドウ戦略と呼ばれ、重度頭部運動の問題を緩和しつつ、効果的に運動特徴を拡大する。
次に、微妙な動き特徴を顔グラフ表現に変換し、その時空間グラフパターンをグラフ畳み込みネットワークで学習する。
提案する顔局所グラフプーリング(FLGP)を用いて,複数スケールの顔グラフ構造から局所的特徴とグローバルな特徴を学習する。
さらに、教師付きコントラスト学習を導入し、分類が難しいフレームに対するモデルの識別能力を高める。
SAMM-LVおよびCAS(ME)^2データセットによる実験結果から,本手法が最先端の性能,特にマイクロ圧縮スポッティングにおいて達成できることが確認された。
アブレーション研究により,提案モジュールの有効性がさらに検証された。
関連論文リスト
- SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting [11.978551396144532]
本稿では,表情スポッティングのための効率的なフレームワークを提案する。
まず,スライディングウィンドウを用いたマルチリゾリューション・オプティカルフロー(SW-MRO)機能を提案する。
第2に,SW-MRO特徴の顔時間関係を同時に符号化し,フレームレベルの精度推定を行うマルチスケール時間変換器であるSpotFormerを提案する。
第3に,異なる種類の表現の識別性を高めるために,教師付きコントラスト学習をSpotFormerに導入する。
論文 参考訳(メタデータ) (2024-07-30T13:02:08Z) - Temporal Graph Representation Learning with Adaptive Augmentation
Contrastive [12.18909612212823]
時間グラフ表現学習は、時間情報を取得するために低次元の動的ノード埋め込みを生成することを目的としている。
本稿では,適応拡張コントラスト(TGAC)モデルを用いたテンポラルグラフ表現学習を提案する。
実ネットワークにおける実験により,提案手法が他の時間グラフ表現学習法より優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T11:21:16Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Privileged Attribution Constrained Deep Networks for Facial Expression
Recognition [31.98044070620145]
顔の表情認識(FER)は、機械が人間の振る舞いをよりよく理解できるようにするため、多くの研究領域において重要である。
これらの問題を緩和するために、私たちはモデルに、目、口、まぶたなどの特定の顔領域に集中するよう指導する。
PAL(Privleged Attribution Loss)は,最も健康な顔領域に向けて,モデルの注意を向ける手法である。
論文 参考訳(メタデータ) (2022-03-24T07:49:33Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Towards Deeper Graph Neural Networks [63.46470695525957]
グラフ畳み込みは近傍の集約を行い、最も重要なグラフ操作の1つである。
いくつかの最近の研究で、この性能劣化は過度に滑らかな問題に起因している。
本研究では,大きな受容領域からの情報を適応的に組み込むディープ適応グラフニューラルネットワーク(DAGNN)を提案する。
論文 参考訳(メタデータ) (2020-07-18T01:11:14Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z) - Non-Linearities Improve OrigiNet based on Active Imaging for Micro
Expression Recognition [8.112868317921853]
ビデオの表現領域におけるアクティブな変化を1フレームに分離するために,能動画像の概念を導入する。
ビデオ中のマイクロ表現の重要な特徴を効率的に学習する,ハイブリッド局所受容場に基づく拡張現実ネットワーク(OrigiNet)を提案する。
論文 参考訳(メタデータ) (2020-05-16T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。