論文の概要: Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback
- arxiv url: http://arxiv.org/abs/2510.12089v1
- Date: Tue, 14 Oct 2025 02:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.16123
- Title: Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback
- Title(参考訳): Playmate2: 逆フィードバック付き拡散変換器による学習不要マルチキャラクタオーディオ駆動アニメーション
- Authors: Xingpei Ma, Shenneng Huang, Jiaran Cai, Yuansheng Guan, Shen Zheng, Hanfeng Zhao, Qiang Zhang, Shunsi Zhang,
- Abstract要約: 任意の長さの音声ビデオを生成するための拡散変換器(DiT)ベースのフレームワークを提案する。
また,マルチキャラクタ・オーディオ駆動アニメーションの学習自由化手法についても紹介する。
実験により,本手法は既存の最先端手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 9.569613635896026
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in diffusion models have significantly improved audio-driven human video generation, surpassing traditional methods in both quality and controllability. However, existing approaches still face challenges in lip-sync accuracy, temporal coherence for long video generation, and multi-character animation. In this work, we propose a diffusion transformer (DiT)-based framework for generating lifelike talking videos of arbitrary length, and introduce a training-free method for multi-character audio-driven animation. First, we employ a LoRA-based training strategy combined with a position shift inference approach, which enables efficient long video generation while preserving the capabilities of the foundation model. Moreover, we combine partial parameter updates with reward feedback to enhance both lip synchronization and natural body motion. Finally, we propose a training-free approach, Mask Classifier-Free Guidance (Mask-CFG), for multi-character animation, which requires no specialized datasets or model modifications and supports audio-driven animation for three or more characters. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches, achieving high-quality, temporally coherent, and multi-character audio-driven video generation in a simple, efficient, and cost-effective manner.
- Abstract(参考訳): 拡散モデルの最近の進歩は、品質と可制御性の両方において従来の手法を超越した、オーディオ駆動型ヒューマンビデオ生成を大幅に改善した。
しかし、既存のアプローチでは、リップシンク精度、長時間のビデオ生成のための時間的コヒーレンス、マルチ文字アニメーションといった課題に直面している。
本研究では,任意の長さのライフライクな音声ビデオを生成するための拡散トランスフォーマ(DiT)ベースのフレームワークを提案する。
まず,LoRAをベースとしたトレーニング戦略と位置シフト推論手法を組み合わせることで,基礎モデルの能力を維持しつつ,効率的な長時間ビデオ生成を実現する。
さらに,部分的パラメータ更新と報酬フィードバックを組み合わせることで,唇の同期と自然体の動きの両性を高める。
最後に,マルチキャラクタアニメーションのためのトレーニングフリーアプローチであるMask-CFGを提案する。
実験により,本手法は,高画質,時間的コヒーレント,マルチキャラクタによる音声駆動ビデオ生成を,シンプルで効率よく,コスト効率よく実現し,既存の最先端手法よりも優れていることを示す。
関連論文リスト
- Wan-S2V: Audio-Driven Cinematic Video Generation [53.59046547320306]
音声駆動キャラクタアニメーションのための最新技術SOTA(State-of-the-art)手法は、音声と歌唱を含むシナリオに対して有望な性能を示す。
We propose a audio-driven model, we referred to Wan-S2V, built on Wan。
論文 参考訳(メタデータ) (2025-08-26T02:51:31Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model [22.286624353800377]
本研究では,2次元人間の骨格を中間動作表現として用い,音声合成のための新しいパイプラインを提案する。
実験の結果,本手法は既存のGAN法および拡散法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-11T08:19:18Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。