Fugu-MT 論文翻訳(概要): FAAC: Facial Animation Generation with Anchor Frame and Conditional Control for Superior Fidelity and Editability

論文の概要: FAAC: Facial Animation Generation with Anchor Frame and Conditional Control for Superior Fidelity and Editability

arxiv url: http://arxiv.org/abs/2312.03775v2
Date: Wed, 20 Dec 2023 12:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 17:45:10.820992
Title: FAAC: Facial Animation Generation with Anchor Frame and Conditional Control for Superior Fidelity and Editability
Title（参考訳）: faac:アンカーフレームと条件制御による顔アニメーション生成による忠実性と編集性の向上
Authors: Linze Li, Sunqi Fan, Hengjun Pu, Zhaodong Bing, Yao Tang, Tianzhu Ye, Tong Yang, Liangyu Chen, Jiajun Liang
Abstract要約: 顔のアイデンティティと編集能力を両立させる顔アニメーション生成手法を提案する。このアプローチは、オリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処するためのアンカーフレームの概念を取り入れている。提案手法の有効性をDreamBoothモデルとLoRAモデルで検証した。
参考スコア（独自算出の注目度）: 14.896554342627551
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Over recent years, diffusion models have facilitated significant advancements in video generation. Yet, the creation of face-related videos still confronts issues such as low facial fidelity, lack of frame consistency, limited editability and uncontrollable human poses. To address these challenges, we introduce a facial animation generation method that enhances both face identity fidelity and editing capabilities while ensuring frame consistency. This approach incorporates the concept of an anchor frame to counteract the degradation of generative ability in original text-to-image models when incorporating a motion module. We propose two strategies towards this objective: training-free and training-based anchor frame methods. Our method's efficacy has been validated on multiple representative DreamBooth and LoRA models, delivering substantial improvements over the original outcomes in terms of facial fidelity, text-to-image editability, and video motion. Moreover, we introduce conditional control using a 3D parametric face model to capture accurate facial movements and expressions. This solution augments the creative possibilities for facial animation generation through the integration of multiple control signals. For additional samples, please visit https://paper-faac.github.io/.
Abstract（参考訳）: 近年、拡散モデルはビデオ生成の大幅な進歩を促している。しかし、顔に関連したビデオの作成は、低い顔の忠実度、フレームの一貫性の欠如、編集可能性の制限、コントロール不能な人間のポーズといった問題に直面している。これらの課題に対処するために,フレーム一貫性を確保しつつ,顔の同一性と編集能力を両立させる顔アニメーション生成手法を提案する。この手法は、アンカーフレームの概念を取り入れ、モーションモジュールを組み込む際にオリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処する。トレーニングフリーとトレーニングベースのアンカーフレーム方式の2つの戦略を提案する。提案手法の有効性は,複数の代表的なDreamBoothモデルとLoRAモデルで検証され,顔の忠実度,テキスト・ツー・イメージの編集性,ビデオモーションといった面で,当初の結果よりも大幅に改善されている。さらに, 3次元パラメトリック顔モデルを用いた条件制御により, 正確な顔の動きや表情をキャプチャする。このソリューションは、複数の制御信号の統合により、顔アニメーション生成の創造性を高める。追加サンプルはhttps://paper-faac.github.io/をご覧ください。

関連論文リスト

SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers [30.06494915665044]
ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。 SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
論文参考訳（メタデータ） (2025-02-15T16:08:40Z)
Towards Consistent and Controllable Image Synthesis for Face Editing [18.646961062736207]
RigFaceは、ポートレート写真のライティング、表情、ヘッドポーズを制御する新しいアプローチである。我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
論文参考訳（メタデータ） (2025-02-04T16:36:07Z)
Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文参考訳（メタデータ） (2024-09-30T03:27:33Z)
Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文参考訳（メタデータ） (2024-09-11T13:43:53Z)
G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文参考訳（メタデータ） (2024-08-23T13:13:24Z)
Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文参考訳（メタデータ） (2024-04-21T14:43:31Z)
Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文参考訳（メタデータ） (2023-12-03T14:17:11Z)
MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。 MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文参考訳（メタデータ） (2023-11-27T18:32:31Z)
High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文参考訳（メタデータ） (2023-04-20T09:02:41Z)
StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-08T12:06:12Z)
PIRenderer: Controllable Portrait Image Generation via Semantic Neural Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文参考訳（メタデータ） (2021-09-17T07:24:16Z)
UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。本フレームワークは,顔交換と顔再現を同時に行うように設計されている。現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文参考訳（メタデータ） (2021-08-12T10:35:22Z)
Realistic Face Reenactment via Self-Supervised Disentangling of Identity and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文参考訳（メタデータ） (2020-03-29T06:45:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。