論文の概要: Wan-S2V: Audio-Driven Cinematic Video Generation
- arxiv url: http://arxiv.org/abs/2508.18621v1
- Date: Tue, 26 Aug 2025 02:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.647725
- Title: Wan-S2V: Audio-Driven Cinematic Video Generation
- Title(参考訳): Wan-S2V:オーディオ駆動シネマティックビデオ生成
- Authors: Xin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo,
- Abstract要約: 音声駆動キャラクタアニメーションのための最新技術SOTA(State-of-the-art)手法は、音声と歌唱を含むシナリオに対して有望な性能を示す。
We propose a audio-driven model, we referred to Wan-S2V, built on Wan。
- 参考スコア(独自算出の注目度): 53.59046547320306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art (SOTA) methods for audio-driven character animation demonstrate promising performance for scenarios primarily involving speech and singing. However, they often fall short in more complex film and television productions, which demand sophisticated elements such as nuanced character interactions, realistic body movements, and dynamic camera work. To address this long-standing challenge of achieving film-level character animation, we propose an audio-driven model, which we refere to as Wan-S2V, built upon Wan. Our model achieves significantly enhanced expressiveness and fidelity in cinematic contexts compared to existing approaches. We conducted extensive experiments, benchmarking our method against cutting-edge models such as Hunyuan-Avatar and Omnihuman. The experimental results consistently demonstrate that our approach significantly outperforms these existing solutions. Additionally, we explore the versatility of our method through its applications in long-form video generation and precise video lip-sync editing.
- Abstract(参考訳): 音声駆動キャラクタアニメーションのSOTA(State-of-the-art)手法は、主に音声と歌のシナリオにおいて有望なパフォーマンスを示す。
しかし、しばしば複雑な映画やテレビの制作に不足し、ナンスなキャラクターの相互作用、現実的な身体の動き、ダイナミックなカメラワークといった洗練された要素を必要とする。
映画レベルのキャラクターアニメーションを実現するという長年にわたる課題に対処するため,Wan 上に構築された Wan-S2V と呼ばれる音声駆動モデルを提案する。
本モデルは,既存の手法と比較して,映像的文脈における表現性や忠実度を著しく向上させる。
本研究では,Hunyuan-Avatar や Omni Human などの最先端モデルと比較実験を行った。
実験結果は、我々のアプローチがこれらの既存のソリューションを大きく上回っていることを一貫して示している。
さらに、長大なビデオ生成と正確なビデオリップ同期編集に応用して、本手法の汎用性について検討する。
関連論文リスト
- EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation [8.214084596349744]
EchoMimicV3はマルチタスクとマルチモーダルアニメーションを統合する効率的なフレームワークである。
最小のモデルサイズが13億のEchoMimicV3は、定量評価と定性評価の両方で競合性能を達成する。
論文 参考訳(メタデータ) (2025-07-05T05:36:26Z) - HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters [14.594698765723756]
HunyuanVideo-Avatarは動的、感情制御可能、マルチキャラクタ対話ビデオを同時に生成できるモデルである。
キャラクタイメージインジェクションモジュールは、従来の追加ベースのキャラクタコンディショニングスキームを置き換えるように設計されている。
AEM(Audio Emotion Module)を導入し、感情参照画像から感情手がかりを抽出し、ターゲット生成ビデオに転送する。
音声駆動型キャラクタを潜在レベルフェイスマスクで分離するために, 顔認識型オーディオアダプタ (FAA) を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:57:27Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。