論文の概要: FaceShot: Bring Any Character into Life
- arxiv url: http://arxiv.org/abs/2503.00740v1
- Date: Sun, 02 Mar 2025 05:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:57.168603
- Title: FaceShot: Bring Any Character into Life
- Title(参考訳): FaceShot:どんなキャラでも生き返らせる
- Authors: Junyao Gao, Yanan Sun, Fei Shen, Xin Jiang, Zhening Xing, Kai Chen, Cairong Zhao,
- Abstract要約: FaceShotはトレーニングなしのポートレートアニメーションフレームワークで、任意のキャラクターを、微調整やリトレーニングをすることなく、駆動ビデオから生き返らせるように設計されている。
我々は、外観誘導型ランドマークマッチングモジュールと座標に基づくランドマークマッチングモジュールからロバストなランドマークシーケンスを提供することにより、これを実現する。
この強力な一般化機能により、FaceShotはポートレートアニメーションの応用を大幅に拡張できる。
- 参考スコア(独自算出の注目度): 26.99093361595318
- License:
- Abstract: In this paper, we present FaceShot, a novel training-free portrait animation framework designed to bring any character into life from any driven video without fine-tuning or retraining. We achieve this by offering precise and robust reposed landmark sequences from an appearance-guided landmark matching module and a coordinate-based landmark retargeting module. Together, these components harness the robust semantic correspondences of latent diffusion models to produce facial motion sequence across a wide range of character types. After that, we input the landmark sequences into a pre-trained landmark-driven animation model to generate animated video. With this powerful generalization capability, FaceShot can significantly extend the application of portrait animation by breaking the limitation of realistic portrait landmark detection for any stylized character and driven video. Also, FaceShot is compatible with any landmark-driven animation model, significantly improving overall performance. Extensive experiments on our newly constructed character benchmark CharacBench confirm that FaceShot consistently surpasses state-of-the-art (SOTA) approaches across any character domain. More results are available at our project website https://faceshot2024.github.io/faceshot/.
- Abstract(参考訳): 本稿では,ファインチューニングやリトレーニングを伴わずに,任意の動画からキャラクタを生かした新たなトレーニングフリーなポートレートアニメーションフレームワークFaceShotを提案する。
我々は、外観誘導型ランドマークマッチングモジュールと座標に基づくランドマーク再ターゲティングモジュールから、精密で頑健なランドマークシーケンスを提供することにより、これを実現する。
これらのコンポーネントは、潜在拡散モデルのロバストな意味的対応を利用して、幅広い文字タイプにわたる顔の動きシーケンスを生成する。
その後、トレーニング済みのランドマーク駆動アニメーションモデルにランドマークシーケンスを入力し、アニメーション映像を生成する。
この強力な一般化機能により、FaceShotは、任意のスタイル化されたキャラクタと駆動ビデオのリアルなポートレートランドマーク検出の制限を破ることで、ポートレートアニメーションの適用を大幅に拡張することができる。
また、FaceShotはランドマーク駆動のアニメーションモデルと互換性があり、全体的なパフォーマンスを大幅に改善している。
新たに構築したキャラクタベンチマークであるCharacBenchの大規模な実験では、FaceShotがあらゆるキャラクタドメインにわたる最新技術(SOTA)アプローチを一貫して上回っていることが確認された。
さらなる結果は、プロジェクトのWebサイトhttps://faceshot2024.github.io/faceshot/.comで公開されています。
関連論文リスト
- Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation [53.767090490974745]
Follow-Your-Emojiは、ポートレートアニメーションのための拡散ベースのフレームワークである。
参照ポートレートとターゲットランドマークシーケンスを識別する。
本手法は,フリースタイルの肖像画の表現を制御できることを実証する。
論文 参考訳(メタデータ) (2024-06-04T02:05:57Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - Versatile Face Animator: Driving Arbitrary 3D Facial Avatar in RGBD
Space [38.940128217895115]
本稿では,顔の動きを終末的にキャプチャーと組み合わせたVersatile Face Animatorを提案する。
1) 階層的な動き辞書を用いて生のRGBDビデオから顔の動きを学習し, 任意の3D文字で表情をアニメーションできるRGBDアニメーションモジュールを提案する。
総合的な実験により,提案手法が印象的な3次元顔画像生成に有効であることを実証した。
論文 参考訳(メタデータ) (2023-08-11T11:29:01Z) - Facial Expression Re-targeting from a Single Character [0.0]
3Dキャラクタの表情を表現するための標準的な方法は、ブレンドシャッフルである。
私たちは、各顔器官のランドマークをグループ化し、それらを関連するブレンドシェープ重みに結合する独自のディープラーニングアーキテクチャを開発しました。
我々のアプローチは、様々なユーザや表現のあるビデオでテストすると、より高いMOSが68%、低いMSEが44.2%に達した。
論文 参考訳(メタデータ) (2023-06-21T11:35:22Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。