論文の概要: VividAnimator: An End-to-End Audio and Pose-driven Half-Body Human Animation Framework
- arxiv url: http://arxiv.org/abs/2510.10269v1
- Date: Sat, 11 Oct 2025 16:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.867975
- Title: VividAnimator: An End-to-End Audio and Pose-driven Half-Body Human Animation Framework
- Title(参考訳): VividAnimator: エンド・ツー・エンドのオーディオと詩駆動のハーフ・ボディ・ヒューマン・アニメーション・フレームワーク
- Authors: Donglin Huang, Yongyuan Li, Tianhang Liu, Junming Huang, Xiaoda Yang, Chi Wang, Weiwei Xu,
- Abstract要約: VividAnimatorは、オーディオとスパースハンドポーズ条件によって駆動される高品質な半体アニメーションを生成するエンドツーエンドフレームワークである。
オンラインコードブックトレーニングの不安定性と高コストを克服するため、私たちは、リッチで高忠実な手テクスチャをエンコードするハンドクラリティー・コードブックを事前訓練しました。
- 参考スコア(独自算出の注目度): 22.497991863309792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing for audio- and pose-driven human animation methods often struggle with stiff head movements and blurry hands, primarily due to the weak correlation between audio and head movements and the structural complexity of hands. To address these issues, we propose VividAnimator, an end-to-end framework for generating high-quality, half-body human animations driven by audio and sparse hand pose conditions. Our framework introduces three key innovations. First, to overcome the instability and high cost of online codebook training, we pre-train a Hand Clarity Codebook (HCC) that encodes rich, high-fidelity hand texture priors, significantly mitigating hand degradation. Second, we design a Dual-Stream Audio-Aware Module (DSAA) to model lip synchronization and natural head pose dynamics separately while enabling interaction. Third, we introduce a Pose Calibration Trick (PCT) that refines and aligns pose conditions by relaxing rigid constraints, ensuring smooth and natural gesture transitions. Extensive experiments demonstrate that Vivid Animator achieves state-of-the-art performance, producing videos with superior hand detail, gesture realism, and identity consistency, validated by both quantitative metrics and qualitative evaluations.
- Abstract(参考訳): 既存の音声およびポーズ駆動の人間のアニメーション手法は、主に音声と頭の動きの弱い相関と手の構造的複雑さのために、硬い頭の動きとぼやけた手とに苦労することが多い。
これらの問題に対処するために,音声とスパースポーズ条件によって駆動される高品質な半体アニメーションを生成するためのエンドツーエンドフレームワークであるVividAnimatorを提案する。
私たちのフレームワークには3つの重要なイノベーションがあります。
第一に、オンラインコードブックトレーニングの不安定性と高コストを克服するために、リッチで高忠実な手テクスチャをエンコードするHand Clarity Codebook(HCC)を事前訓練し、手の劣化を著しく軽減する。
次に,Dual-Stream Audio-Aware Module (DSAA) を設計した。
第3に、厳密な制約を緩和し、スムーズかつ自然なジェスチャー遷移を保証することで、条件を洗練・調整するPose Calibration Trick(PCT)を導入する。
広汎な実験により、Vivid Animatorは最先端のパフォーマンスを実現し、測定値と定性評価の両方で検証された、手作業のディテール、ジェスチャーリアリズム、アイデンティティ一貫性を備えたビデオを生成する。
関連論文リスト
- InfinityHuman: Towards Long-Term Audio-Driven Human [37.55371306203722]
既存の方法は、重なり合うモーションフレームを使ってビデオを拡張するが、エラーの蓄積に悩まされ、アイデンティティのドリフト、色の変化、シーンの不安定性が生じる。
InfinityHumanは、まず音声同期表現を生成し、その後徐々に高精細長ビデオへと洗練する粗大なフレームワークである。
EMTDとHDTFデータセットの実験により、InfinityHumanはビデオの品質、アイデンティティの保存、手の正確性、リップシンクにおける最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-08-27T18:36:30Z) - FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。
最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。
第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文 参考訳(メタデータ) (2025-04-07T08:56:01Z) - EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。