論文の概要: HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation
- arxiv url: http://arxiv.org/abs/2503.18860v1
- Date: Mon, 24 Mar 2025 16:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:26.649460
- Title: HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation
- Title(参考訳): HunyuanPortrait: 拡張されたポートレートアニメーションのための暗黙の条件制御
- Authors: Zunnan Xu, Zhentao Yu, Zixiang Zhou, Jun Zhou, Xiaoyu Jin, Fa-Ting Hong, Xiaozhong Ji, Junwei Zhu, Chengfei Cai, Shiyu Tang, Qin Lin, Xiu Li, Qinglin Lu,
- Abstract要約: HunyuanPortraitは、ポートレートアニメーションの拡散に基づく条件制御方法である。
運転映像の表情と頭部ポーズにより、基準画像中のキャラクタをアニメーション化することができる。
我々のフレームワークは既存の手法より優れ、時間的一貫性と制御性に優れていた。
- 参考スコア(独自算出の注目度): 30.030540407121325
- License:
- Abstract: We introduce HunyuanPortrait, a diffusion-based condition control method that employs implicit representations for highly controllable and lifelike portrait animation. Given a single portrait image as an appearance reference and video clips as driving templates, HunyuanPortrait can animate the character in the reference image by the facial expression and head pose of the driving videos. In our framework, we utilize pre-trained encoders to achieve the decoupling of portrait motion information and identity in videos. To do so, implicit representation is adopted to encode motion information and is employed as control signals in the animation phase. By leveraging the power of stable video diffusion as the main building block, we carefully design adapter layers to inject control signals into the denoising unet through attention mechanisms. These bring spatial richness of details and temporal consistency. HunyuanPortrait also exhibits strong generalization performance, which can effectively disentangle appearance and motion under different image styles. Our framework outperforms existing methods, demonstrating superior temporal consistency and controllability. Our project is available at https://kkakkkka.github.io/HunyuanPortrait.
- Abstract(参考訳): HunyuanPortraitという拡散型条件制御手法を導入する。
HunyuanPortraitは、外観基準として1枚の肖像画と、運転テンプレートとしてのビデオクリップを付与することにより、運転ビデオの表情と頭部ポーズによって、基準画像中のキャラクタをアニメーション化することができる。
本フレームワークでは,事前学習したエンコーダを用いて,映像における人物像情報とアイデンティティの疎結合を実現する。
そのため、動作情報を符号化するために暗黙の表現が採用され、アニメーションフェーズにおける制御信号として使用される。
本研究は,映像拡散のパワーをメインビルディングブロックとして活用することにより,注意機構を通じて制御信号をdenoising unetに注入するアダプタ層を慎重に設計する。
これらは細部と時間的一貫性の空間的豊かさをもたらす。
HunyuanPortraitは、画像スタイルの異なる外観や動きを効果的に切り離すことのできる、強力な一般化性能も誇示している。
我々のフレームワークは既存の手法より優れ、時間的一貫性と制御性に優れていた。
私たちのプロジェクトはhttps://kkakkka.github.io/HunyuanPortrait.comで公開されています。
関連論文リスト
- FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control [66.66226299852559]
VideoAnydoorは、高忠実度ディテール保存と正確なモーションコントロールを備えたゼロショットビデオオブジェクト挿入フレームワークである。
詳細な外観を保ちながら、微粒な動き制御をサポートするため、我々は画素ワーパーを設計する。
論文 参考訳(メタデータ) (2025-01-02T18:59:54Z) - DisPose: Disentangling Pose Guidance for Controllable Human Image Animation [13.366879755548636]
DisPoseは、人間の画像アニメーションにおけるスパーススケルトンポーズをモーションフィールドガイダンスとキーポイント対応に切り離すことを目的としている。
既存のモデルにシームレスに統合するために,プラグイン・アンド・プレイハイブリッド・コントロールネットを提案する。
論文 参考訳(メタデータ) (2024-12-12T15:15:59Z) - LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control [13.552097853323207]
Portrait Animationは、単一のソースイメージからビデオを合成し、それを外観参照として使用し、駆動ビデオ、オーディオ、テキスト、または生成から派生したモーションで合成することを目的としている。
我々はLivePortraitというビデオ駆動のポートレート・アニメーション・フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-03T14:41:39Z) - Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation [53.767090490974745]
Follow-Your-Emojiは、ポートレートアニメーションのための拡散ベースのフレームワークである。
参照ポートレートとターゲットランドマークシーケンスを識別する。
本手法は,フリースタイルの肖像画の表現を制御できることを実証する。
論文 参考訳(メタデータ) (2024-06-04T02:05:57Z) - AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation [4.568539181254851]
本稿では,オーディオによる高品質なアニメーションを生成するためのフレームワークであるAniPortraitと,参照ポートレート画像を提案する。
実験により,AniPortraitの顔の自然性,ポーズの多様性,視覚的品質の面での優位性が示された。
本手法は,顔の動きの編集や顔の再現といった領域に効果的に適用可能な,柔軟性や制御性の観点からも有意な可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-26T13:35:02Z) - X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。
実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文 参考訳(メタデータ) (2024-03-23T20:30:28Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。