論文の概要: Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation
- arxiv url: http://arxiv.org/abs/2512.13495v1
- Date: Mon, 15 Dec 2025 16:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.749368
- Title: Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation
- Title(参考訳): 高精細な長期マルチモーダルアニメーションのためのデジタル人間への人生
- Authors: Jiangning Zhang, Junwei Zhu, Zhenye Gan, Donghao Luo, Chuming Lin, Feifan Xu, Xu Peng, Jianlong Hu, Yuansen Liu, Yijia Hong, Weijian Cao, Han Feng, Xu Chen, Chencan Fu, Keke He, Xiaobin Hu, Chengjie Wang,
- Abstract要約: Soulは、高忠実な長期デジタルヒューマンアニメーションのためのフレームワークである。
単一のフレームのポートレートイメージ、テキストプロンプト、オーディオからセマンティックコヒーレントなビデオを生成する。
正確な唇の同期、鮮やかな表情、堅牢なアイデンティティ保存を実現している。
- 参考スコア(独自算出の注目度): 70.86886231976439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a multimodal-driven framework for high-fidelity long-term digital human animation termed $\textbf{Soul}$, which generates semantically coherent videos from a single-frame portrait image, text prompts, and audio, achieving precise lip synchronization, vivid facial expressions, and robust identity preservation. We construct Soul-1M, containing 1 million finely annotated samples with a precise automated annotation pipeline (covering portrait, upper-body, full-body, and multi-person scenes) to mitigate data scarcity, and we carefully curate Soul-Bench for comprehensive and fair evaluation of audio-/text-guided animation methods. The model is built on the Wan2.2-5B backbone, integrating audio-injection layers and multiple training strategies together with threshold-aware codebook replacement to ensure long-term generation consistency. Meanwhile, step/CFG distillation and a lightweight VAE are used to optimize inference efficiency, achieving an 11.4$\times$ speedup with negligible quality loss. Extensive experiments show that Soul significantly outperforms current leading open-source and commercial models on video quality, video-text alignment, identity preservation, and lip-synchronization accuracy, demonstrating broad applicability in real-world scenarios such as virtual anchors and film production. Project page at https://zhangzjn.github.io/projects/Soul/
- Abstract(参考訳): 単一フレームのポートレート画像,テキストプロンプト,オーディオからセマンティックコヒーレントなビデオを生成し,正確な唇同期,鮮明な表情,堅牢なアイデンティティ保存を実現する。
我々は,データ不足を軽減するために,100万個の細かな注釈付きサンプルと正確な自動アノテーションパイプライン(ポートレート,上半身,フルボディ,マルチパーソンシーンを含む)を組み込んだSoul-1Mを構築し,音声/テキスト誘導アニメーション手法の総合的・公正な評価のために,Soul-Benchを慎重にキュレートする。
このモデルはWan2.2-5Bのバックボーン上に構築されており、オーディオ・インジェクション・レイヤと複数のトレーニング・ストラテジとしきい値対応のコードブックの置き換えを統合して、長期的な生成一貫性を確保する。
一方、ステップ/CFG蒸留と軽量のVAEを使用して推論効率を最適化し、11.4$\times$のスピードアップを実現し、品質損失を無視できる。
大規模な実験により、Soulは、ビデオの品質、ビデオテキストのアライメント、アイデンティティの保存、リップ同期の精度において、現在の主要なオープンソースおよび商用モデルよりも大幅に優れており、仮想アンカーや映画制作のような現実のシナリオで広く適用可能であることが示されている。
Project page at https://zhangzjn.github.io/projects/Soul/
関連論文リスト
- Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback [9.569613635896026]
任意の長さの音声ビデオを生成するための拡散変換器(DiT)ベースのフレームワークを提案する。
また,マルチキャラクタ・オーディオ駆動アニメーションの学習自由化手法についても紹介する。
実験により,本手法は既存の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-10-14T02:50:05Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - JWB-DH-V1: Benchmark for Joint Whole-Body Talking Avatar and Speech Generation Version 1 [6.4645943969421875]
本稿では, 音声合成バージョンI(JWB-DH-V1)について紹介する。
200万のビデオサンプルに1万のユニークなアイデンティティを持つ大規模なマルチモーダルデータセットと、全身のアニマタブルアバターのジョイントオーディオビデオ生成を評価するための評価プロトコルを備える。
我々のSOTAモデルの評価では、顔/手中心と全身のパフォーマンスの相違が一貫した。
論文 参考訳(メタデータ) (2025-07-28T16:47:44Z) - AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [52.655400705690155]
AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。
ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。
ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。
別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
論文 参考訳(メタデータ) (2025-06-03T17:55:18Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [39.94595889521696]
LetsTalkは、マルチモーダルガイダンスと新しいメモリバンク機構を備えた拡散トランスフォーマーフレームワークである。
特に、LetsTalkは、拡張ビデオ生成時のエラーの蓄積とアーティファクトのサンプリングを緩和するために、ノイズレギュラー化されたメモリバンクを導入している。
我々はLetsTalkが生成品質の新たな最先端を確立し、時間的に一貫したリアルな会話ビデオを生成することを示す。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T10:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。