論文の概要: FAAC: Facial Animation Generation with Anchor Frame and Conditional
Control for Superior Fidelity and Editability
- arxiv url: http://arxiv.org/abs/2312.03775v2
- Date: Wed, 20 Dec 2023 12:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:45:10.820992
- Title: FAAC: Facial Animation Generation with Anchor Frame and Conditional
Control for Superior Fidelity and Editability
- Title(参考訳): faac:アンカーフレームと条件制御による顔アニメーション生成による忠実性と編集性の向上
- Authors: Linze Li, Sunqi Fan, Hengjun Pu, Zhaodong Bing, Yao Tang, Tianzhu Ye,
Tong Yang, Liangyu Chen, Jiajun Liang
- Abstract要約: 顔のアイデンティティと編集能力を両立させる顔アニメーション生成手法を提案する。
このアプローチは、オリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処するためのアンカーフレームの概念を取り入れている。
提案手法の有効性をDreamBoothモデルとLoRAモデルで検証した。
- 参考スコア(独自算出の注目度): 14.896554342627551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over recent years, diffusion models have facilitated significant advancements
in video generation. Yet, the creation of face-related videos still confronts
issues such as low facial fidelity, lack of frame consistency, limited
editability and uncontrollable human poses. To address these challenges, we
introduce a facial animation generation method that enhances both face identity
fidelity and editing capabilities while ensuring frame consistency. This
approach incorporates the concept of an anchor frame to counteract the
degradation of generative ability in original text-to-image models when
incorporating a motion module. We propose two strategies towards this
objective: training-free and training-based anchor frame methods. Our method's
efficacy has been validated on multiple representative DreamBooth and LoRA
models, delivering substantial improvements over the original outcomes in terms
of facial fidelity, text-to-image editability, and video motion. Moreover, we
introduce conditional control using a 3D parametric face model to capture
accurate facial movements and expressions. This solution augments the creative
possibilities for facial animation generation through the integration of
multiple control signals. For additional samples, please visit
https://paper-faac.github.io/.
- Abstract(参考訳): 近年、拡散モデルはビデオ生成の大幅な進歩を促している。
しかし、顔に関連したビデオの作成は、低い顔の忠実度、フレームの一貫性の欠如、編集可能性の制限、コントロール不能な人間のポーズといった問題に直面している。
これらの課題に対処するために,フレーム一貫性を確保しつつ,顔の同一性と編集能力を両立させる顔アニメーション生成手法を提案する。
この手法は、アンカーフレームの概念を取り入れ、モーションモジュールを組み込む際にオリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処する。
トレーニングフリーとトレーニングベースのアンカーフレーム方式の2つの戦略を提案する。
提案手法の有効性は,複数の代表的なDreamBoothモデルとLoRAモデルで検証され,顔の忠実度,テキスト・ツー・イメージの編集性,ビデオモーションといった面で,当初の結果よりも大幅に改善されている。
さらに, 3次元パラメトリック顔モデルを用いた条件制御により, 正確な顔の動きや表情をキャプチャする。
このソリューションは、複数の制御信号の統合により、顔アニメーション生成の創造性を高める。
追加サンプルはhttps://paper-faac.github.io/をご覧ください。
関連論文リスト
- Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Diffusion Video Autoencoders: Toward Temporally Consistent Face Video
Editing via Disentangled Video Encoding [35.18070525015657]
拡散オートエンコーダに基づく新しい顔映像編集フレームワークを提案する。
我々のモデルは拡散モデルに基づいており、再構築と編集の両方を同時に行うことができる。
論文 参考訳(メタデータ) (2022-12-06T07:41:51Z) - 3D GAN Inversion for Controllable Portrait Image Animation [45.55581298551192]
我々は新たに開発された3D GANを活用し、マルチビュー一貫性のある画像対象のポーズを明示的に制御できる。
ポートレート・イメージ・アニメーションの手法は、画像の品質、アイデンティティの保存、ポーズ・トランスファーの点で、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-25T04:06:06Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z) - Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文 参考訳(メタデータ) (2020-03-29T06:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。