論文の概要: M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation
- arxiv url: http://arxiv.org/abs/2507.08307v2
- Date: Mon, 14 Jul 2025 10:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 12:29:47.610695
- Title: M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation
- Title(参考訳): M2DAO-Talker:マルチグラニュラーモーションデカップリングの調和とトーキングヘッド生成の代替最適化
- Authors: Kui Jiang, Shiyu Liu, Junjun Jiang, Xin Yang, Hongxun Yao, Xiaopeng Fan,
- Abstract要約: 我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 65.08520614570288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven talking head generation holds significant potential for film production. While existing 3D methods have advanced motion modeling and content synthesis, they often produce rendering artifacts, such as motion blur, temporal jitter, and local penetration, due to limitations in representing stable, fine-grained motion fields. Through systematic analysis, we reformulate talking head generation into a unified framework comprising three steps: video preprocessing, motion representation, and rendering reconstruction. This framework underpins our proposed M2DAO-Talker, which addresses current limitations via multi-granular motion decoupling and alternating optimization. Specifically, we devise a novel 2D portrait preprocessing pipeline to extract frame-wise deformation control conditions (motion region segmentation masks, and camera parameters) to facilitate motion representation. To ameliorate motion modeling, we elaborate a multi-granular motion decoupling strategy, which independently models non-rigid (oral and facial) and rigid (head) motions for improved reconstruction accuracy. Meanwhile, a motion consistency constraint is developed to ensure head-torso kinematic consistency, thereby mitigating penetration artifacts caused by motion aliasing. In addition, an alternating optimization strategy is designed to iteratively refine facial and oral motion parameters, enabling more realistic video generation. Experiments across multiple datasets show that M2DAO-Talker achieves state-of-the-art performance, with the 2.43 dB PSNR improvement in generation quality and 0.64 gain in user-evaluated video realness versus TalkingGaussian while with 150 FPS inference speed. Our project homepage is https://m2dao-talker.github.io/M2DAO-Talk.github.io.
- Abstract(参考訳): 音声駆動音声ヘッド生成は、映画製作において大きな可能性を秘めている。
既存の3D手法には高度なモーションモデリングとコンテンツ合成があるが、安定できめ細かな運動場を表現する制限のため、しばしば動きのぼやけ、時間ジッタ、局所浸透といったレンダリングアーティファクトを生成する。
組織的分析により,音声音声生成をビデオ前処理,動画表現,レンダリング再構成の3段階からなる統一的なフレームワークに再構成する。
このフレームワークが提案するM2DAO-Talkerの基盤となる。
具体的には、フレーム単位の変形制御条件(動き領域分割マスク、カメラパラメータ)を抽出し、動きの表現を容易にする2次元ポートレート前処理パイプラインを考案する。
動作モデリングを改善するために,非剛性(口腔・顔面)と剛性(頭)の運動を独立にモデル化し,再建精度を向上させる多粒性運動デカップリング戦略を精査した。
一方、頭部運動整合性を確保するために運動整合性制約が開発され、運動エイリアシングによる浸透アーティファクトの軽減が図られる。
さらに、顔と口の動きパラメータを反復的に洗練し、よりリアルな映像生成を可能にするように、交互に最適化戦略が設計されている。
複数のデータセットにわたる実験により、M2DAO-Talkerは2.43dBのPSNRが生成品質を改善し、ユーザ評価されたビデオの現実性とTalkingGaussianが150FPSの推論速度で0.64アップする、最先端のパフォーマンスを達成した。
私たちのプロジェクトのホームページはhttps://m2dao-talker.github.io/M2DAO-Talk.github.ioです。
関連論文リスト
- Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [50.4776422843776]
Follow-Your-Motionは、複雑な動きを合成するために強力なビデオ拡散トランスフォーマーを微調整する、効率的な2段階ビデオモーション転送フレームワークである。
我々は,Follow-Your-Motionの優位性を検証するため,MotionBenchについて広範囲に評価を行った。
論文 参考訳(メタデータ) (2025-06-05T16:18:32Z) - In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [54.62824686338408]
最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。
動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models [5.224806515926022]
外部データを持たない任意の文字に対するフレーム間の動きを生成する新しい手法であるAnyMoLeを導入する。
本手法では,文脈理解を高めるために2段階のフレーム生成プロセスを用いる。
論文 参考訳(メタデータ) (2025-03-11T13:28:59Z) - LightMotion: A Light and Tuning-free Method for Simulating Camera Motion in Video Generation [56.64004196498026]
LightMotionは、ビデオ生成におけるカメラモーションをシミュレートするための軽量かつチューニング不要な方法である。
潜在空間で操作すると、追加の微調整、塗装、深さ推定がなくなる。
論文 参考訳(メタデータ) (2025-03-09T08:28:40Z) - Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T16:06:16Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - StableFace: Analyzing and Improving Motion Stability for Talking Face
Generation [38.25025849434312]
入力音声と出力映像をブリッジする3次元顔表現を用いた最先端パイプラインに基づく動きジッタリング問題について検討する。
音声合成ビデオでは,いくつかの問題がジッタに繋がることが判明した。
論文 参考訳(メタデータ) (2022-08-29T16:56:35Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。