論文の概要: Wan-S2V: Audio-Driven Cinematic Video Generation
- arxiv url: http://arxiv.org/abs/2508.18621v1
- Date: Tue, 26 Aug 2025 02:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.647725
- Title: Wan-S2V: Audio-Driven Cinematic Video Generation
- Title(参考訳): Wan-S2V:オーディオ駆動シネマティックビデオ生成
- Authors: Xin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo,
- Abstract要約: 音声駆動キャラクタアニメーションのための最新技術SOTA(State-of-the-art)手法は、音声と歌唱を含むシナリオに対して有望な性能を示す。
We propose a audio-driven model, we referred to Wan-S2V, built on Wan。
- 参考スコア(独自算出の注目度): 53.59046547320306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art (SOTA) methods for audio-driven character animation demonstrate promising performance for scenarios primarily involving speech and singing. However, they often fall short in more complex film and television productions, which demand sophisticated elements such as nuanced character interactions, realistic body movements, and dynamic camera work. To address this long-standing challenge of achieving film-level character animation, we propose an audio-driven model, which we refere to as Wan-S2V, built upon Wan. Our model achieves significantly enhanced expressiveness and fidelity in cinematic contexts compared to existing approaches. We conducted extensive experiments, benchmarking our method against cutting-edge models such as Hunyuan-Avatar and Omnihuman. The experimental results consistently demonstrate that our approach significantly outperforms these existing solutions. Additionally, we explore the versatility of our method through its applications in long-form video generation and precise video lip-sync editing.
- Abstract(参考訳): 音声駆動キャラクタアニメーションのSOTA(State-of-the-art)手法は、主に音声と歌のシナリオにおいて有望なパフォーマンスを示す。
しかし、しばしば複雑な映画やテレビの制作に不足し、ナンスなキャラクターの相互作用、現実的な身体の動き、ダイナミックなカメラワークといった洗練された要素を必要とする。
映画レベルのキャラクターアニメーションを実現するという長年にわたる課題に対処するため,Wan 上に構築された Wan-S2V と呼ばれる音声駆動モデルを提案する。
本モデルは,既存の手法と比較して,映像的文脈における表現性や忠実度を著しく向上させる。
本研究では,Hunyuan-Avatar や Omni Human などの最先端モデルと比較実験を行った。
実験結果は、我々のアプローチがこれらの既存のソリューションを大きく上回っていることを一貫して示している。
さらに、長大なビデオ生成と正確なビデオリップ同期編集に応用して、本手法の汎用性について検討する。
関連論文リスト
- Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback [9.569613635896026]
任意の長さの音声ビデオを生成するための拡散変換器(DiT)ベースのフレームワークを提案する。
また,マルチキャラクタ・オーディオ駆動アニメーションの学習自由化手法についても紹介する。
実験により,本手法は既存の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-10-14T02:50:05Z) - X-Actor: Emotional and Expressive Long-Range Portrait Acting from Audio [27.619816538121327]
X-アクターは、単一の参照画像と入力オーディオクリップから、生き生きとした感情的に表現された音声ヘッドビデオを生成する。
視覚的・アイデンティティ的手がかりから切り離されたコンパクトな顔動作潜時空間で操作することにより、自己回帰拡散モデルは、音声と顔の動きの長距離相関を効果的に捉えることができる。
X-Actorは、標準的なトーキングヘッドアニメーションを超越した、魅力的なシネマティックなパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-08-04T22:57:01Z) - EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation [8.214084596349744]
EchoMimicV3はマルチタスクとマルチモーダルアニメーションを統合する効率的なフレームワークである。
最小のモデルサイズが13億のEchoMimicV3は、定量評価と定性評価の両方で競合性能を達成する。
論文 参考訳(メタデータ) (2025-07-05T05:36:26Z) - HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters [14.594698765723756]
HunyuanVideo-Avatarは動的、感情制御可能、マルチキャラクタ対話ビデオを同時に生成できるモデルである。
キャラクタイメージインジェクションモジュールは、従来の追加ベースのキャラクタコンディショニングスキームを置き換えるように設計されている。
AEM(Audio Emotion Module)を導入し、感情参照画像から感情手がかりを抽出し、ターゲット生成ビデオに転送する。
音声駆動型キャラクタを潜在レベルフェイスマスクで分離するために, 顔認識型オーディオアダプタ (FAA) を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:57:27Z) - Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing [60.38045088180188]
高精度な韻律アライメントで高品質なダビング生成を実現するために,音響プロソディディスト2段法を提案する。
我々は、異なる映画における視覚領域シフトの影響を低減するために、ドメイン内感情分析モジュールを組み込んだ。
提案手法は,2つのベンチマークにおける最先端モデルに対して良好に機能する。
論文 参考訳(メタデータ) (2025-03-15T08:25:57Z) - EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。
DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。
本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文 参考訳(メタデータ) (2024-10-17T16:32:36Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。