論文の概要: G$^2$V$^2$former: Graph Guided Video Vision Transformer for Face Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2408.07675v1
- Date: Wed, 14 Aug 2024 17:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:33:27.426758
- Title: G$^2$V$^2$former: Graph Guided Video Vision Transformer for Face Anti-Spoofing
- Title(参考訳): G$^2$V$^2$former:Face Anti-Spoofingのためのグラフガイドビデオビジョントランス
- Authors: Jingyi Yang, Zitong Yu, Xiuming Ni, Jia He, Hui Li,
- Abstract要約: スプーフされた顔を含むビデオでは、光度またはダイナミックな異常に基づいて、スプーフの証拠を発見できるかもしれない。
本稿では,顔と顔のランドマークを組み合わせたグラフガイドビデオビジョン変換器を提案する。
- 参考スコア(独自算出の注目度): 23.325272595629773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In videos containing spoofed faces, we may uncover the spoofing evidence based on either photometric or dynamic abnormality, even a combination of both. Prevailing face anti-spoofing (FAS) approaches generally concentrate on the single-frame scenario, however, purely photometric-driven methods overlook the dynamic spoofing clues that may be exposed over time. This may lead FAS systems to conclude incorrect judgments, especially in cases where it is easily distinguishable in terms of dynamics but challenging to discern in terms of photometrics. To this end, we propose the Graph Guided Video Vision Transformer (G$^2$V$^2$former), which combines faces with facial landmarks for photometric and dynamic feature fusion. We factorize the attention into space and time, and fuse them via a spatiotemporal block. Specifically, we design a novel temporal attention called Kronecker temporal attention, which has a wider receptive field, and is beneficial for capturing dynamic information. Moreover, we leverage the low-semantic motion of facial landmarks to guide the high-semantic change of facial expressions based on the motivation that regions containing landmarks may reveal more dynamic clues. Extensive experiments on nine benchmark datasets demonstrate that our method achieves superior performance under various scenarios. The codes will be released soon.
- Abstract(参考訳): スプーフされた顔を含むビデオでは、光度またはダイナミックな異常に基づいて、スプーフの証拠を発見できるかもしれない。
顔の偽造防止(FAS)アプローチは一般的に単一フレームのシナリオに集中するが、純粋に測光駆動の手法は時間とともに露出するかもしれない動的な偽造の手がかりを見落としている。
これによりFAS系は、特に力学では容易に区別できるが測光学では区別が難しい場合において、誤った判断を下すことができる。
この目的のために,顔と顔のランドマークを組み合わせたグラフガイドビデオビジョン変換器(G$^2$V$^2$former)を提案する。
注意を空間と時間に分解し、時空間ブロックを介して融合する。
具体的には、より広い受容領域を有するKronecker temporal attentionと呼ばれる新しい時間的注意を設計し、動的情報の収集に有用である。
さらに, ランドマークを含む領域がよりダイナミックな手がかりを示すという動機に基づいて, 表情の高調波変化を導くために, 低調波運動を利用する。
9つのベンチマークデータセットに対する大規模な実験により,本手法は様々なシナリオにおいて優れた性能を発揮することが示された。
コードも間もなく公開される予定だ。
関連論文リスト
- Multi-Scale Spatio-Temporal Graph Convolutional Network for Facial Expression Spotting [11.978551396144532]
表情スポッティングのためのマルチスケール時空間グラフコナーネットワーク(SpoT-CN)を提案する。
窓長がネットワークの時間的受容野に適応するコンパクトなスライディングウインドウにおいて,顔面筋の短期的および長期的運動を追跡する。
このネットワークは,提案した顔局所進化グラフプーリング(FLGP)を用いて,複数スケールの顔グラフ構造から局所的特徴と大域的特徴を学習する。
論文 参考訳(メタデータ) (2024-03-24T03:10:39Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial
Expression Recognition in Videos [94.49851812388061]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Face Detection in Extreme Conditions: A Machine-learning Approach [0.0]
近年の研究では、様々なガジェットやパターンの識別において、戦略の深層学習知識が優れたパフォーマンスを得ることができることが示されている。
本稿では,それらの相互関係を利用して性能を向上する,深層キャスケード型マルチベンチャーフレームワークを提案する。
特に、私のフレームワークは、顔とランドマークの領域を粗い方法で予測する、慎重に設計された深層畳み込みネットワークの3層からなるカスケード形状を採用しています。
論文 参考訳(メタデータ) (2022-01-17T05:23:22Z) - FakeTransformer: Exposing Face Forgery From Spatial-Temporal
Representation Modeled By Facial Pixel Variations [8.194624568473126]
顔の偽造はあらゆるターゲットを攻撃できるため、個人のプライバシーと財産のセキュリティに新たな脅威をもたらす。
生理的信号の空間的コヒーレンスと時間的一貫性が生成された内容で破壊されるという事実に着想を得て,実ビデオと合成ビデオとを区別できる一貫性のないパターンを見つけ出そうとする。
論文 参考訳(メタデータ) (2021-11-15T08:44:52Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。