論文の概要: HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2508.10566v1
- Date: Thu, 14 Aug 2025 12:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.299259
- Title: HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis
- Title(参考訳): HM-Talker:ハイファイダリティトーキングヘッド合成のためのハイブリッドモーションモデリング
- Authors: Shiyu Liu, Kui Jiang, Xianming Liu, Hongxun Yao, Xiaocheng Feng,
- Abstract要約: HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
- 参考スコア(独自算出の注目度): 55.92704600574577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven talking head video generation enhances user engagement in human-computer interaction. However, current methods frequently produce videos with motion blur and lip jitter, primarily due to their reliance on implicit modeling of audio-facial motion correlations--an approach lacking explicit articulatory priors (i.e., anatomical guidance for speech-related facial movements). To overcome this limitation, we propose HM-Talker, a novel framework for generating high-fidelity, temporally coherent talking heads. HM-Talker leverages a hybrid motion representation combining both implicit and explicit motion cues. Explicit cues use Action Units (AUs), anatomically defined facial muscle movements, alongside implicit features to minimize phoneme-viseme misalignment. Specifically, our Cross-Modal Disentanglement Module (CMDM) extracts complementary implicit/explicit motion features while predicting AUs directly from audio input aligned to visual cues. To mitigate identity-dependent biases in explicit features and enhance cross-subject generalization, we introduce the Hybrid Motion Modeling Module (HMMM). This module dynamically merges randomly paired implicit/explicit features, enforcing identity-agnostic learning. Together, these components enable robust lip synchronization across diverse identities, advancing personalized talking head synthesis. Extensive experiments demonstrate HM-Talker's superiority over state-of-the-art methods in visual quality and lip-sync accuracy.
- Abstract(参考訳): 音声駆動音声ヘッドビデオ生成は、人間とコンピュータのインタラクションにおけるユーザエンゲージメントを高める。
しかし, 動きのぼやけや唇のジッタを伴う映像は, 音声と表情の相関関係の暗黙的なモデル化に大きく依存しているため, 明瞭な構音前(すなわち, 音声関連顔の動きの解剖学的ガイダンス)が欠如している。
この制限を克服するために,高忠実で時間的コヒーレントな発話ヘッドを生成するための新しいフレームワークであるHM-Talkerを提案する。
HM-Talkerは暗黙と明示の両方の動作キューを組み合わせたハイブリッドモーション表現を利用する。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
具体的には、CMDM(Cross-Modal Disentanglement Module)は、視覚的手がかりに整列した音声入力から直接AUを予測しながら、補完的な暗黙的/明示的な動作特徴を抽出する。
明示的な特徴のアイデンティティ依存バイアスを緩和し,オブジェクト間の一般化を促進するために,HMMM(Hybrid Motion Modeling Module)を導入する。
このモジュールはランダムにペアリングされた暗黙的/明示的な特徴を動的にマージし、アイデンティティに依存しない学習を強制する。
これらのコンポーネントは、多様なアイデンティティをまたいだ堅牢な唇同期を可能にし、パーソナライズされた音声ヘッド合成を促進する。
広汎な実験により,HM-Talkerは視覚的品質とリップシンク精度において最先端の手法よりも優れていることが示された。
関連論文リスト
- SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion
Models [22.000197530493445]
拡散モデルは、音声と共起する人間の動きを合成するのに適していることを示す。
我々はDiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えてモデリング能力を向上させる。
ジェスチャーとダンス生成の実験により,提案手法が最上位の動作品質を実現することを確認した。
論文 参考訳(メタデータ) (2022-11-17T17:41:00Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。