論文の概要: DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis
- arxiv url: http://arxiv.org/abs/2510.10650v1
- Date: Sun, 12 Oct 2025 15:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.049677
- Title: DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis
- Title(参考訳): DEMO:細粒化制御型トーキングポートレート合成のための遠方移動遅延流マッチング
- Authors: Peiyin Chen, Zhuowei Yang, Hui Feng, Sheng Jiang, Rui Yan,
- Abstract要約: DEMOは、音声駆動型トーキングヘッドビデオ合成のためのフローマッチング生成フレームワークである。
唇の動き、頭部のポーズ、視線を高度に制御する。
- 参考スコア(独自算出の注目度): 15.304037069236536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking-head generation has advanced rapidly with diffusion-based generative models, yet producing temporally coherent videos with fine-grained motion control remains challenging. We propose DEMO, a flow-matching generative framework for audio-driven talking-portrait video synthesis that delivers disentangled, high-fidelity control of lip motion, head pose, and eye gaze. The core contribution is a motion auto-encoder that builds a structured latent space in which motion factors are independently represented and approximately orthogonalized. On this disentangled motion space, we apply optimal-transport-based flow matching with a transformer predictor to generate temporally smooth motion trajectories conditioned on audio. Extensive experiments across multiple benchmarks show that DEMO outperforms prior methods in video realism, lip-audio synchronization, and motion fidelity. These results demonstrate that combining fine-grained motion disentanglement with flow-based generative modeling provides a powerful new paradigm for controllable talking-head video synthesis.
- Abstract(参考訳): 音声駆動のトーキングヘッド生成は拡散に基づく生成モデルによって急速に進歩しているが、微粒な動き制御を伴う時間的コヒーレントなビデオを生成することは依然として困難である。
音声駆動型音声画像合成のためのフローマッチング生成フレームワークであるDEMOを提案する。
コアコントリビューションは、運動因子が独立に表現され、ほぼ直交する構造化された潜在空間を構築するモーションオートエンコーダである。
この不整合運動空間では、トランスフォーマー予測器と最適なトランスポートベースフローマッチングを適用して、音声に条件付けられた時間的に滑らかな運動軌跡を生成する。
複数のベンチマークによる大規模な実験により、DEMOはビデオリアリズム、リップオーディオ同期、動きの忠実さにおいて、従来の手法よりも優れていたことが示されている。
これらの結果から, 微粒な動きのゆがみとフローベース生成モデルを組み合わせることで, 制御可能な音声音声合成のための強力なパラダイムが得られた。
関連論文リスト
- Causal Motion Diffusion Models for Autoregressive Motion Generation [19.61051102039212]
因果運動拡散モデル(CMDM)は自己回帰運動生成のための統合されたフレームワークである。
CMDMはMAC-VAE(Motion-Language-Aligned Causal VAE)の上に構築され、動作シーケンスを時間的因果潜在表現にエンコードする。
HumanML3DとSnapMoGenの実験では、CMDMは、意味的忠実度と時間的滑らかさの両方において、既存の拡散モデルと自己回帰モデルより優れていることを示した。
論文 参考訳(メタデータ) (2026-02-26T03:58:25Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment [38.42799902378583]
仮想キャラクタとエンボディエージェントのアニメーションにはモーション生成が不可欠である。
TAPOとMotionFLUXは、セマンティック一貫性とモーション品質の両方において最先端のアプローチより優れている統一システムを形成する。
論文 参考訳(メタデータ) (2025-08-27T02:45:09Z) - HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis [55.92704600574577]
HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
論文 参考訳(メタデータ) (2025-08-14T12:01:52Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis [27.43583075023949]
Dittoは拡散型トーキングヘッドフレームワークで、きめ細かい制御とリアルタイム推論を可能にする。
我々は,Dittoが魅力的な音声ヘッドビデオを生成し,制御性とリアルタイム性能の両面で優位性を示すことを示す。
論文 参考訳(メタデータ) (2024-11-29T07:01:31Z) - LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。