論文の概要: MegActor: Harness the Power of Raw Video for Vivid Portrait Animation
- arxiv url: http://arxiv.org/abs/2405.20851v1
- Date: Fri, 31 May 2024 14:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:18:09.503343
- Title: MegActor: Harness the Power of Raw Video for Vivid Portrait Animation
- Title(参考訳): MegActor:鮮やかなポートレートアニメーションで生の動画のパワーを損なう
- Authors: Shurong Yang, Huadong Li, Juhao Wu, Minhao Jing, Linze Li, Renhe Ji, Jiajun Liang, Haoqiang Fan,
- Abstract要約: MegActorは生のビデオの力を利用して、鮮やかな肖像画のアニメーションを作る。
本稿では,一貫した動きと表情を持つビデオを生成するための合成データ生成フレームワークを提案する。
さらに,運転映像への参照画像の外観の移動を図り,運転映像における顔の詳細の影響を排除した。
- 参考スコア(独自算出の注目度): 16.013989935948114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite raw driving videos contain richer information on facial expressions than intermediate representations such as landmarks in the field of portrait animation, they are seldom the subject of research. This is due to two challenges inherent in portrait animation driven with raw videos: 1) significant identity leakage; 2) Irrelevant background and facial details such as wrinkles degrade performance. To harnesses the power of the raw videos for vivid portrait animation, we proposed a pioneering conditional diffusion model named as MegActor. First, we introduced a synthetic data generation framework for creating videos with consistent motion and expressions but inconsistent IDs to mitigate the issue of ID leakage. Second, we segmented the foreground and background of the reference image and employed CLIP to encode the background details. This encoded information is then integrated into the network via a text embedding module, thereby ensuring the stability of the background. Finally, we further style transfer the appearance of the reference image to the driving video to eliminate the influence of facial details in the driving videos. Our final model was trained solely on public datasets, achieving results comparable to commercial models. We hope this will help the open-source community.The code is available at https://github.com/megvii-research/MegFaceAnimate.
- Abstract(参考訳): 生のドライビングビデオは、肖像画の分野におけるランドマークのような中間表現よりも豊かな表情情報を含んでいるが、研究の対象はめったにない。
これは、生のビデオで駆動されるポートレートアニメーションに固有の2つの課題が原因である。
1) 重大な個人情報漏洩
2)シワ等の無関係な背景と顔の細部は性能を低下させる。
生動画の力を利用して鮮やかなポートレートアニメーションを実現するために,我々はMegActorという条件付き拡散モデルを提案する。
まず、一貫した動きと表情を持つビデオを作成するための合成データ生成フレームワークを導入し、ID漏洩の問題を緩和するために、一貫性のないIDを導入した。
次に、参照画像の前景と背景を分割し、CLIPを用いて背景の詳細をエンコードした。
この符号化された情報は、テキスト埋め込みモジュールを介してネットワークに統合され、背景の安定性が保証される。
最後に,参照画像の外観をドライビングビデオに転送することで,ドライビングビデオにおける顔の詳細の影響を解消する。
最終モデルは公開データセットのみに基づいてトレーニングされ、商用モデルに匹敵する結果が得られました。
ソースコードはhttps://github.com/megvii-research/MegFaceAnimate.comで公開されている。
関連論文リスト
- Make Your Actor Talk: Generalizable and High-Fidelity Lip Sync with Motion and Appearance Disentanglement [38.17828583069966]
本研究の目的は,個人的アイデンティティと視覚的詳細を保ちながら,音声による唇の動きの編集を行うことである。
動きに依存しない視覚的詳細をキャプチャするために、別個のエンコーダを使用して唇、非唇の外観、動きを符号化し、学習した融合モジュールと統合する。
論文 参考訳(メタデータ) (2024-06-12T11:22:03Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文 参考訳(メタデータ) (2024-01-19T17:16:16Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z) - Image Animation with Perturbed Masks [95.94432031144716]
我々は,同じタイプのオブジェクトを描画する駆動ビデオにより,ソースイメージの画像アニメーションのための新しいアプローチを提案する。
我々はポーズモデルの存在を前提とせず、オブジェクトの構造を知ることなく任意のオブジェクトをアニメーション化することができる。
論文 参考訳(メタデータ) (2020-11-13T14:17:17Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。