論文の概要: Facial Prior Based First Order Motion Model for Micro-expression
Generation
- arxiv url: http://arxiv.org/abs/2308.04536v1
- Date: Tue, 8 Aug 2023 18:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 16:10:02.722351
- Title: Facial Prior Based First Order Motion Model for Micro-expression
Generation
- Title(参考訳): マイクロ表現生成のための顔優先1次運動モデル
- Authors: Yi Zhang, Youjun Zhao, Yuhang Wen, Zixuan Tang, Xinhua Xu, Mengyuan
Liu
- Abstract要約: 本稿では,マイクロ圧縮生成と呼ばれる新しいタスクの定式化を試みる。
ファーストオーダーのモーションモデルと顔の事前知識を組み合わせる。
対象の顔が与えられた場合、原動画の動きパターンに応じて、顔を動かしてマイクロ圧縮ビデオを生成する。
- 参考スコア(独自算出の注目度): 11.27890186026442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spotting facial micro-expression from videos finds various potential
applications in fields including clinical diagnosis and interrogation,
meanwhile this task is still difficult due to the limited scale of training
data. To solve this problem, this paper tries to formulate a new task called
micro-expression generation and then presents a strong baseline which combines
the first order motion model with facial prior knowledge. Given a target face,
we intend to drive the face to generate micro-expression videos according to
the motion patterns of source videos. Specifically, our new model involves
three modules. First, we extract facial prior features from a region focusing
module. Second, we estimate facial motion using key points and local affine
transformations with a motion prediction module. Third, expression generation
module is used to drive the target face to generate videos. We train our model
on public CASME II, SAMM and SMIC datasets and then use the model to generate
new micro-expression videos for evaluation. Our model achieves the first place
in the Facial Micro-Expression Challenge 2021 (MEGC2021), where our superior
performance is verified by three experts with Facial Action Coding System
certification. Source code is provided in
https://github.com/Necolizer/Facial-Prior-Based-FOMM.
- Abstract(参考訳): ビデオから顔のマイクロ表現を見つけると、臨床診断や尋問などの分野で様々な応用が考えられるが、トレーニングデータの規模が限られているため、この課題はまだ難しい。
そこで本研究では,マイクロ圧縮生成と呼ばれる新しいタスクを定式化し,第1次動作モデルと顔の先行知識を組み合わせた強力なベースラインを提示する。
対象の顔が与えられた場合、原動画の動きパターンに応じて、顔を動かしてマイクロ圧縮ビデオを生成する。
具体的には、新しいモデルは3つのモジュールを含む。
まず,領域集中モジュールから顔先行特徴を抽出する。
第2に,動き予測モジュールを用いたキーポイントと局所アフィン変換を用いて顔の動きを推定する。
第三に、表情生成モジュールはターゲットの顔を駆動してビデオを生成する。
パブリックなcasme ii、samm、smicデータセットでモデルをトレーニングし、そのモデルを使って評価のために新しいマイクロ表現ビデオを生成します。
本モデルは,顔マイクロ表現チャレンジ2021 (megc2021) において,顔動作符号化システム認定を受けた3人の専門家によって,優れた性能が検証される第1位となる。
ソースコードはhttps://github.com/Necolizer/Facial-Prior-Based-FOMMで公開されている。
関連論文リスト
- Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - 4D Facial Expression Diffusion Model [3.507793603897647]
本稿では,3次元表情系列を生成するための生成フレームワークを提案する。
これは、一連の3Dランドマークシーケンスでトレーニングされた生成モデルを学ぶことと、生成されたランドマークシーケンスによって駆動される入力された顔メッシュの3Dメッシュシーケンスを生成することの2つのタスクで構成されている。
実験により,本モデルは比較的小さなデータセットからのみ,現実的で質の高い表現を生成することができ,最先端の手法よりも改善されていることがわかった。
論文 参考訳(メタデータ) (2023-03-29T11:50:21Z) - MAGVIT: Masked Generative Video Transformer [129.50814875955444]
我々は,MAsked Generative VIdeo Transformer(MAGVIT)を導入し,単一のモデルで様々なビデオ合成タスクに取り組む。
単一のMAGVITモデルは10の多様な生成タスクをサポートし、異なる視覚領域からのビデオ間で一般化する。
論文 参考訳(メタデータ) (2022-12-10T04:26:32Z) - Facial Expression Video Generation Based-On Spatio-temporal
Convolutional GAN: FEV-GAN [1.279257604152629]
6つの基本表情の映像を生成するための新しいアプローチを提案する。
提案手法は,同一ネットワークにおけるコンテンツと動作の両方をモデル化することが知られている時空間的コナールGANをベースとしている。
コードと事前訓練されたモデルは間もなく公開される予定だ。
論文 参考訳(メタデータ) (2022-10-20T11:54:32Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - MMNet: Muscle motion-guided network for micro-expression recognition [2.032432845751978]
筋運動誘導ネットワーク(MMNet)という,ロバストなマイクロ圧縮認識フレームワークを提案する。
具体的には,局所的な微妙な筋運動パターンを識別情報が少なくモデル化することに焦点を当てた連続的注意ブロック(CA)を導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-01-14T04:05:49Z) - A Dynamic 3D Spontaneous Micro-expression Database: Establishment and
Evaluation [14.994232615123337]
マイクロ表現は、人々の真の内的感情を示す、自発的で無意識の顔の動きである。
表情の発生は、顔の空間的変形を引き起こす。
本稿では,2次元ビデオシーケンスと3次元点雲シーケンスを含む新しいマイクロ圧縮データベースを提案する。
論文 参考訳(メタデータ) (2021-07-31T07:04:16Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。