論文の概要: MARLIN: Masked Autoencoder for facial video Representation LearnINg
- arxiv url: http://arxiv.org/abs/2211.06627v3
- Date: Wed, 22 Mar 2023 09:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 02:17:22.773816
- Title: MARLIN: Masked Autoencoder for facial video Representation LearnINg
- Title(参考訳): marlin: 顔ビデオ表現学習のためのマスク付きオートエンコーダ
- Authors: Zhixi Cai, Shreya Ghosh, Kalin Stefanov, Abhinav Dhall, Jianfei Cai,
Hamid Rezatofighi, Reza Haffari, Munawar Hayat
- Abstract要約: 本稿では,ビデオから普遍的な表情を学習するための自己教師型アプローチを提案する。
提案フレームワークであるMARLINは,顔ビデオのマスク付きオートエンコーダである。
MarLINは、十分に利用可能なウェブクローリングされた顔ビデオから、非常に堅牢で汎用的な顔埋め込みを学ぶ。
- 参考スコア(独自算出の注目度): 42.38893280102873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a self-supervised approach to learn universal facial
representations from videos, that can transfer across a variety of facial
analysis tasks such as Facial Attribute Recognition (FAR), Facial Expression
Recognition (FER), DeepFake Detection (DFD), and Lip Synchronization (LS). Our
proposed framework, named MARLIN, is a facial video masked autoencoder, that
learns highly robust and generic facial embeddings from abundantly available
non-annotated web crawled facial videos. As a challenging auxiliary task,
MARLIN reconstructs the spatio-temporal details of the face from the densely
masked facial regions which mainly include eyes, nose, mouth, lips, and skin to
capture local and global aspects that in turn help in encoding generic and
transferable features. Through a variety of experiments on diverse downstream
tasks, we demonstrate MARLIN to be an excellent facial video encoder as well as
feature extractor, that performs consistently well across a variety of
downstream tasks including FAR (1.13% gain over supervised benchmark), FER
(2.64% gain over unsupervised benchmark), DFD (1.86% gain over unsupervised
benchmark), LS (29.36% gain for Frechet Inception Distance), and even in low
data regime. Our code and models are available at
https://github.com/ControlNet/MARLIN .
- Abstract(参考訳): 本稿では,表情属性認識 (far), 表情認識 (fer), ディープフェイク検出 (dfd), 口唇同期 (ls) などの様々な顔分析タスクにおいて, 映像から普遍的な表情表現を学習するための自己教師ありアプローチを提案する。
提案するフレームワークはMARLINという顔ビデオの自動エンコーダで,十分に利用可能なウェブクローリング顔ビデオから,非常に堅牢で汎用的な顔埋め込みを学習する。
難しい補助課題として、MARLINは、目、鼻、口、唇、皮膚を含む密集した顔領域から顔の時空間的詳細を再構成し、局所的および世界的側面を捉え、汎用的で伝達可能な特徴をコード化するのに役立つ。
様々な下流タスクに関する様々な実験を通じて、MARLINは優れた顔ビデオエンコーダであり、特徴抽出器であり、FAR(1.13%)、FER(2.64%)、DFD(1.86%)、LS(29.36%)、低データ体制でも一貫して機能することを示した。
私たちのコードとモデルはhttps://github.com/ControlNet/MARLIN で利用可能です。
関連論文リスト
- SimFLE: Simple Facial Landmark Encoding for Self-Supervised Facial
Expression Recognition in the Wild [3.4798852684389963]
顔のランドマークの効果的な符号化を学習できる自己教師型簡易顔ランドマーク符号化法(SimFLE)を提案する。
この目的のために、新しいFaceMAEモジュールを紹介します。
いくつかのFER-Wベンチマークの実験結果から、提案したSimFLEは顔のランドマークのローカライゼーションに優れていることが証明された。
論文 参考訳(メタデータ) (2023-03-14T06:30:55Z) - Mover: Mask and Recovery based Facial Part Consistency Aware Method for
Deepfake Video Detection [33.29744034340998]
Moverは新しいDeepfake検出モデルで、不特定の顔の部分の不整合を悪用する。
本稿では,事前学習されたエンコーダとマスク付きオートエンコーダを利用するデュアルネットワークを用いた新しいモデルを提案する。
我々の標準ベンチマーク実験は、Moverが極めて効果的であることを示している。
論文 参考訳(メタデータ) (2023-03-03T06:57:22Z) - Facial Expression Video Generation Based-On Spatio-temporal
Convolutional GAN: FEV-GAN [1.279257604152629]
6つの基本表情の映像を生成するための新しいアプローチを提案する。
提案手法は,同一ネットワークにおけるコンテンツと動作の両方をモデル化することが知られている時空間的コナールGANをベースとしている。
コードと事前訓練されたモデルは間もなく公開される予定だ。
論文 参考訳(メタデータ) (2022-10-20T11:54:32Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z) - Contrastive Context-Aware Learning for 3D High-Fidelity Mask Face
Presentation Attack Detection [103.7264459186552]
顔認識システムには、顔提示攻撃検出(PAD)が不可欠である。
ほとんどの既存の3DマスクPADベンチマークにはいくつかの欠点があります。
現実世界のアプリケーションとのギャップを埋めるために、大規模なハイファイアリティマスクデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-13T12:48:38Z) - ID-Reveal: Identity-aware DeepFake Video Detection [24.79483180234883]
ID-Reveal(ID-Reveal)は、時間的顔の特徴を学習する新しいアプローチだ。
偽物のトレーニングデータは必要ありませんが、実際のビデオでトレーニングするだけです。
高圧縮映像における顔再現の精度は平均15%以上向上した。
論文 参考訳(メタデータ) (2020-12-04T10:43:16Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。