論文の概要: EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation
- arxiv url: http://arxiv.org/abs/2411.10061v1
- Date: Fri, 15 Nov 2024 09:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:37:27.206586
- Title: EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation
- Title(参考訳): EchoMimicV2: ストライク、単純化、半体アニメーションを目指して
- Authors: Rang Meng, Xingyu Zhang, Yuming Li, Chenguang Ma,
- Abstract要約: 本研究では, 半体細部, 顔の表情, ジェスチャーの表現性を向上し, コンディションの冗長性を低減するため, 半体アニメーション手法であるEchoMimicV2を提案する。
特定のフェーズにおけるアニメーションの動作、ディテール、低レベルの品質をガイドするために、フェーズ固有のDenoising Lossを設計する。
大規模な実験と分析により、EchoMimicV2は定量評価と定性評価の両方において既存の手法を超越していることが示された。
- 参考スコア(独自算出の注目度): 4.772507207388683
- License:
- Abstract: Recent work on human animation usually involves audio, pose, or movement maps conditions, thereby achieves vivid animation quality. However, these methods often face practical challenges due to extra control conditions, cumbersome condition injection modules, or limitation to head region driving. Hence, we ask if it is possible to achieve striking half-body human animation while simplifying unnecessary conditions. To this end, we propose a half-body human animation method, dubbed EchoMimicV2, that leverages a novel Audio-Pose Dynamic Harmonization strategy, including Pose Sampling and Audio Diffusion, to enhance half-body details, facial and gestural expressiveness, and meanwhile reduce conditions redundancy. To compensate for the scarcity of half-body data, we utilize Head Partial Attention to seamlessly accommodate headshot data into our training framework, which can be omitted during inference, providing a free lunch for animation. Furthermore, we design the Phase-specific Denoising Loss to guide motion, detail, and low-level quality for animation in specific phases, respectively. Besides, we also present a novel benchmark for evaluating the effectiveness of half-body human animation. Extensive experiments and analyses demonstrate that EchoMimicV2 surpasses existing methods in both quantitative and qualitative evaluations.
- Abstract(参考訳): 人間のアニメーションに関する最近の研究は、通常、音声、ポーズ、移動マップの条件を伴い、鮮やかなアニメーションの質を達成する。
しかし、これらの手法は、余分な制御条件、煩雑な条件注入モジュール、ヘッド領域駆動の制限など、現実的な課題に直面していることが多い。
そこで我々は,不必要な条件を簡素化しつつ,半身の人間アニメーションを達成できるかどうかを問う。
この目的のために,EchoMimicV2と呼ばれるハーフボディの人体アニメーション手法を提案する。この手法は,ポースサンプリングやオーディオ拡散などの新しい動的調和戦略を利用して,ハーフボディの細部,顔とジェスチャーの表現性を向上し,同時に条件の冗長性を低減させる。
半体データの不足を補うために、ヘッドパーシャルアテンション(Head partial Attention)を用いて、推論中に省略可能なヘッドショットデータをトレーニングフレームワークにシームレスにアタッチし、アニメーションの無料ランチを提供する。
さらに,特定のフェーズにおけるアニメーションの動作,ディテール,低レベル品質をガイドするために,各フェーズ固有のDenoising Lossを設計する。
また,半体アニメーションの有効性を評価するための新しいベンチマークも提案する。
大規模な実験と分析により、EchoMimicV2は定量評価と定性評価の両方において既存の手法を超越していることが示された。
関連論文リスト
- AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention [15.841490425454344]
CyberHostは、エンドツーエンドのオーディオ駆動人間アニメーションフレームワークである。
Region Codebook Attention Mechanisms improve the generation quality of face and hand animations。
身体運動マップ、手明度スコア、ポーズ整列基準特徴、局所的な強化監督など、人間優先のトレーニング戦略により、合成結果が改善される。
論文 参考訳(メタデータ) (2024-09-03T13:19:31Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation [12.552355581481999]
まず,30fps以上の音声信号のみを駆動する,パーソナライズされた写真リアリスティックなトーキングヘッドアニメーションを生成するライブシステムを提案する。
第1段階はディープニューラルネットワークで、ターゲットの音声空間に特徴を投影する多様体投影と共に、ディープオーディオ特徴を抽出する。
第2段階では、投影された音声特徴から顔の動きと動きを学習する。
最終段階では、過去の予測から条件付き特徴写像を生成し、画像から画像への変換ネットワークに設定した候補画像で送信し、フォトリアリスティックレンダリングを合成する。
論文 参考訳(メタデータ) (2021-09-22T08:47:43Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。