論文の概要: TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model
- arxiv url: http://arxiv.org/abs/2410.10696v1
- Date: Mon, 14 Oct 2024 16:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:15:14.956101
- Title: TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model
- Title(参考訳): talK-Act:拡散モデルを用いた2次元音声アバター再生におけるテクスチャ認識の強化
- Authors: Jiazhi Guan, Quanwei Yang, Kaisiyuan Wang, Hang Zhou, Shengyi He, Zhiliang Xu, Haocheng Feng, Errui Ding, Jingdong Wang, Hongtao Xie, Youjian Zhao, Ziwei Liu,
- Abstract要約: 本研究では,SpeaKing Avatar Reenactment (TALK-Act) フレームワークのためのMotion-Enhanced Textural-Aware ModeLingを提案する。
我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。
本モデルは,30秒の個人データのみを用いて,高忠実度2次元アバター再現を実現する。
- 参考スコア(独自算出の注目度): 100.35665852159785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, 2D speaking avatars have increasingly participated in everyday scenarios due to the fast development of facial animation techniques. However, most existing works neglect the explicit control of human bodies. In this paper, we propose to drive not only the faces but also the torso and gesture movements of a speaking figure. Inspired by recent advances in diffusion models, we propose the Motion-Enhanced Textural-Aware ModeLing for SpeaKing Avatar Reenactment (TALK-Act) framework, which enables high-fidelity avatar reenactment from only short footage of monocular video. Our key idea is to enhance the textural awareness with explicit motion guidance in diffusion modeling. Specifically, we carefully construct 2D and 3D structural information as intermediate guidance. While recent diffusion models adopt a side network for control information injection, they fail to synthesize temporally stable results even with person-specific fine-tuning. We propose a Motion-Enhanced Textural Alignment module to enhance the bond between driving and target signals. Moreover, we build a Memory-based Hand-Recovering module to help with the difficulties in hand-shape preserving. After pre-training, our model can achieve high-fidelity 2D avatar reenactment with only 30 seconds of person-specific data. Extensive experiments demonstrate the effectiveness and superiority of our proposed framework. Resources can be found at https://guanjz20.github.io/projects/TALK-Act.
- Abstract(参考訳): 近年,顔のアニメーション技術が急速に発達しているため,2次元アバターは日常のシナリオにますます参加している。
しかし、現存する作品の多くは、人体の明確な制御を無視している。
本稿では,話し手の顔だけでなく,胴体やジェスチャーの動きを駆動することを提案する。
近年の拡散モデルの発展に触発されて,単眼映像の短い映像から高忠実度アバター再現を可能にするSpeaKing Avatar Reenactment (TALK-Act) フレームワークのMotion-Enhanced Textural-Aware ModeLingを提案する。
我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。
具体的には,中間ガイダンスとして2次元および3次元構造情報を慎重に構築する。
最近の拡散モデルでは、制御情報注入のためのサイドネットワークが採用されているが、人固有の微調整であっても、時間的に安定した結果の合成には失敗している。
本研究では、駆動信号と目標信号との結合性を高めるために、動き強化型テクスチュラルアライメントモジュールを提案する。
さらに,手形保存の難しさを解消するために,メモリベースのハンドリカバリモジュールを構築した。
プレトレーニング後,本モデルでは,30秒の個人データのみを用いて高忠実度2Dアバター再現を行うことができる。
大規模な実験により,提案フレームワークの有効性と優位性を実証した。
リソースはhttps://guanjz20.github.io/projects/TALK-Act.orgにある。
関連論文リスト
- WonderHuman: Hallucinating Unseen Parts in Dynamic 3D Human Reconstruction [51.22641018932625]
我々はWonderHumanをモノクラービデオから再構成し、高忠実なノベルビューの合成を行う。
提案手法は,与えられたモノクロ映像からフォトリアリスティックなレンダリングを生成する場合のSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-02-03T04:43:41Z) - AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework [33.46782517803435]
Make-Your-Anchorは、トレーニングのために個人の1分間のビデオクリップだけを必要とするシステムである。
入力ビデオ上に構造誘導拡散モデルを用いて3次元メッシュ条件を人間の外見に表現する。
出力ビデオにおける顔領域の視覚的品質を改善するために、新しい識別特異的顔強調モジュールが導入された。
論文 参考訳(メタデータ) (2024-03-25T07:54:18Z) - Synthesizing Moving People with 3D Control [81.92710208308684]
対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
論文 参考訳(メタデータ) (2024-01-19T18:59:11Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - FAAC: Facial Animation Generation with Anchor Frame and Conditional
Control for Superior Fidelity and Editability [14.896554342627551]
顔のアイデンティティと編集能力を両立させる顔アニメーション生成手法を提案する。
このアプローチは、オリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処するためのアンカーフレームの概念を取り入れている。
提案手法の有効性をDreamBoothモデルとLoRAモデルで検証した。
論文 参考訳(メタデータ) (2023-12-06T02:55:35Z) - Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with
Image Diffusion Model [57.855362366674264]
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。
提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
論文 参考訳(メタデータ) (2023-08-15T13:00:42Z) - AvatarFusion: Zero-shot Generation of Clothing-Decoupled 3D Avatars
Using 2D Diffusion [34.609403685504944]
ゼロショットテキスト-アバター生成のためのフレームワークであるAvatarFusionを提案する。
我々は遅延拡散モデルを用いて、人間の現実的なアバターを生成するためのピクセルレベルのガイダンスを提供する。
また,身体と衣服の生成を意味的に分離する新たな最適化手法である,PS-DS(Pixel-Semantics Difference-Sampling)を導入する。
論文 参考訳(メタデータ) (2023-07-13T02:19:56Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。