論文の概要: G$^2$V$^2$former: Graph Guided Video Vision Transformer for Face Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2408.07675v1
- Date: Wed, 14 Aug 2024 17:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:33:27.426758
- Title: G$^2$V$^2$former: Graph Guided Video Vision Transformer for Face Anti-Spoofing
- Title(参考訳): G$^2$V$^2$former:Face Anti-Spoofingのためのグラフガイドビデオビジョントランス
- Authors: Jingyi Yang, Zitong Yu, Xiuming Ni, Jia He, Hui Li,
- Abstract要約: スプーフされた顔を含むビデオでは、光度またはダイナミックな異常に基づいて、スプーフの証拠を発見できるかもしれない。
本稿では,顔と顔のランドマークを組み合わせたグラフガイドビデオビジョン変換器を提案する。
- 参考スコア(独自算出の注目度): 23.325272595629773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In videos containing spoofed faces, we may uncover the spoofing evidence based on either photometric or dynamic abnormality, even a combination of both. Prevailing face anti-spoofing (FAS) approaches generally concentrate on the single-frame scenario, however, purely photometric-driven methods overlook the dynamic spoofing clues that may be exposed over time. This may lead FAS systems to conclude incorrect judgments, especially in cases where it is easily distinguishable in terms of dynamics but challenging to discern in terms of photometrics. To this end, we propose the Graph Guided Video Vision Transformer (G$^2$V$^2$former), which combines faces with facial landmarks for photometric and dynamic feature fusion. We factorize the attention into space and time, and fuse them via a spatiotemporal block. Specifically, we design a novel temporal attention called Kronecker temporal attention, which has a wider receptive field, and is beneficial for capturing dynamic information. Moreover, we leverage the low-semantic motion of facial landmarks to guide the high-semantic change of facial expressions based on the motivation that regions containing landmarks may reveal more dynamic clues. Extensive experiments on nine benchmark datasets demonstrate that our method achieves superior performance under various scenarios. The codes will be released soon.
- Abstract(参考訳): スプーフされた顔を含むビデオでは、光度またはダイナミックな異常に基づいて、スプーフの証拠を発見できるかもしれない。
顔の偽造防止(FAS)アプローチは一般的に単一フレームのシナリオに集中するが、純粋に測光駆動の手法は時間とともに露出するかもしれない動的な偽造の手がかりを見落としている。
これによりFAS系は、特に力学では容易に区別できるが測光学では区別が難しい場合において、誤った判断を下すことができる。
この目的のために,顔と顔のランドマークを組み合わせたグラフガイドビデオビジョン変換器(G$^2$V$^2$former)を提案する。
注意を空間と時間に分解し、時空間ブロックを介して融合する。
具体的には、より広い受容領域を有するKronecker temporal attentionと呼ばれる新しい時間的注意を設計し、動的情報の収集に有用である。
さらに, ランドマークを含む領域がよりダイナミックな手がかりを示すという動機に基づいて, 表情の高調波変化を導くために, 低調波運動を利用する。
9つのベンチマークデータセットに対する大規模な実験により,本手法は様々なシナリオにおいて優れた性能を発揮することが示された。
コードも間もなく公開される予定だ。
関連論文リスト
- SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting [11.978551396144532]
本稿では,表情スポッティングのための効率的なフレームワークを提案する。
まず,スライディングウィンドウを用いたマルチリゾリューション・オプティカルフロー(SW-MRO)機能を提案する。
第2に,SW-MRO特徴の顔時間関係を同時に符号化し,フレームレベルの精度推定を行うマルチスケール時間変換器であるSpotFormerを提案する。
第3に,異なる種類の表現の識別性を高めるために,教師付きコントラスト学習をSpotFormerに導入する。
論文 参考訳(メタデータ) (2024-07-30T13:02:08Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Latent Spatiotemporal Adaptation for Generalized Face Forgery Video Detection [22.536129731902783]
顔画像の一般的な検出を容易にするためのLatemporal Spatio(LAST)アプローチを提案する。
まず、各フレームの局所的な空間的特徴を抽出するために、軽量CNNを組み込むことで、ビデオの時間的パターンをモデル化する。
次に、静止空間ビデオの長期的表現を学習し、画素空間よりも多くの手がかりを含むべきである。
論文 参考訳(メタデータ) (2023-09-09T13:40:44Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Face Detection in Extreme Conditions: A Machine-learning Approach [0.0]
近年の研究では、様々なガジェットやパターンの識別において、戦略の深層学習知識が優れたパフォーマンスを得ることができることが示されている。
本稿では,それらの相互関係を利用して性能を向上する,深層キャスケード型マルチベンチャーフレームワークを提案する。
特に、私のフレームワークは、顔とランドマークの領域を粗い方法で予測する、慎重に設計された深層畳み込みネットワークの3層からなるカスケード形状を採用しています。
論文 参考訳(メタデータ) (2022-01-17T05:23:22Z) - FakeTransformer: Exposing Face Forgery From Spatial-Temporal
Representation Modeled By Facial Pixel Variations [8.194624568473126]
顔の偽造はあらゆるターゲットを攻撃できるため、個人のプライバシーと財産のセキュリティに新たな脅威をもたらす。
生理的信号の空間的コヒーレンスと時間的一貫性が生成された内容で破壊されるという事実に着想を得て,実ビデオと合成ビデオとを区別できる一貫性のないパターンを見つけ出そうとする。
論文 参考訳(メタデータ) (2021-11-15T08:44:52Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。