論文の概要: LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
- arxiv url: http://arxiv.org/abs/2407.03168v1
- Date: Wed, 3 Jul 2024 14:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:46:50.817278
- Title: LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
- Title(参考訳): LivePortrait: ストッチとリターゲット制御による効率的なポートレートアニメーション
- Authors: Jianzhu Guo, Dingyun Zhang, Xiaoqiang Liu, Zhizhou Zhong, Yuan Zhang, Pengfei Wan, Di Zhang,
- Abstract要約: Portrait Animationは、単一のソースイメージからビデオを合成し、それを外観参照として使用し、駆動ビデオ、オーディオ、テキスト、または生成から派生したモーションで合成することを目的としている。
我々はLivePortraitというビデオ駆動のポートレート・アニメーション・フレームワークを開発した。
- 参考スコア(独自算出の注目度): 13.552097853323207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Portrait Animation aims to synthesize a lifelike video from a single source image, using it as an appearance reference, with motion (i.e., facial expressions and head pose) derived from a driving video, audio, text, or generation. Instead of following mainstream diffusion-based methods, we explore and extend the potential of the implicit-keypoint-based framework, which effectively balances computational efficiency and controllability. Building upon this, we develop a video-driven portrait animation framework named LivePortrait with a focus on better generalization, controllability, and efficiency for practical usage. To enhance the generation quality and generalization ability, we scale up the training data to about 69 million high-quality frames, adopt a mixed image-video training strategy, upgrade the network architecture, and design better motion transformation and optimization objectives. Additionally, we discover that compact implicit keypoints can effectively represent a kind of blendshapes and meticulously propose a stitching and two retargeting modules, which utilize a small MLP with negligible computational overhead, to enhance the controllability. Experimental results demonstrate the efficacy of our framework even compared to diffusion-based methods. The generation speed remarkably reaches 12.8ms on an RTX 4090 GPU with PyTorch. The inference code and models are available at https://github.com/KwaiVGI/LivePortrait
- Abstract(参考訳): ポートレートアニメーション(Portrait Animation)は、1つのソースイメージからライフライクな映像を合成することを目的としており、映像、音声、テキスト、世代から派生した動き(表情、頭ポーズなど)を用いて外観参照として利用する。
主流の拡散に基づく手法に従う代わりに、暗黙のキーポイントに基づくフレームワークの可能性を探求し、拡張し、計算効率と制御性を効果的にバランスさせる。
そこで我々はLivePortraitという動画駆動のポートレート・アニメーション・フレームワークを開発した。
生成品質と一般化能力を向上させるため、トレーニングデータを約6900万の高品質フレームにスケールアップし、画像とビデオの混合トレーニング戦略を採用し、ネットワークアーキテクチャをアップグレードし、より優れた動き変換と最適化の目標を設計する。
さらに,コンパクトな暗黙のキーポイントはブレンドサップの一種を効果的に表現することができ,その制御性を高めるために,最小限の計算オーバーヘッドを持つMLPを利用する縫合モジュールと2つの再ターゲティングモジュールを巧みに提案することを発見した。
実験により,拡散法と比較しても本フレームワークの有効性が示された。
生成速度は、PyTorchでRTX 4090 GPU上で12.8msに達する。
推論コードとモデルはhttps://github.com/KwaiVGI/LivePortraitで公開されている。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。
実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文 参考訳(メタデータ) (2024-03-23T20:30:28Z) - Continuous Piecewise-Affine Based Motion Model for Image Animation [45.55812811136834]
画像アニメーションは、動画の駆動によって静的なイメージを生き返らせることを目的としている。
最近の教師なし手法では、キーポイントに基づくアフィンおよび薄板のスプライン変換を用いて、駆動フレーム内の動きをソース画像に転送する。
本研究では,高表現率微分空間における原画像から駆動フレームへの動きをモデル化する。
論文 参考訳(メタデータ) (2024-01-17T11:40:05Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Deep Spatial Transformation for Pose-Guided Person Image Generation and
Animation [50.10989443332995]
ポーズ誘導型人物画像生成とアニメーションは、元人物画像をターゲットポーズに変換することを目的としている。
畳み込みニューラルネットワークは、入力を空間的に変換する能力の欠如によって制限される。
本稿では,機能レベルでのインプットを再構築するグローバルフロー局所アテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T08:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。