論文の概要: KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation
- arxiv url: http://arxiv.org/abs/2509.20128v1
- Date: Wed, 24 Sep 2025 13:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.832594
- Title: KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation
- Title(参考訳): KSDiff: 顔アニメーションのためのキーフレーム拡張音声対応デュアルパス拡散
- Authors: Tianle Lyu, Junchuan Zhao, Ye Wang,
- Abstract要約: KSDiffはKeyframe-Augmented Speech-Aware Dual-Path Diffusionフレームワークである。
表現関連と頭置関連の機能をアンタングルにし、自動回帰的キーフレーム設定学習モジュールは最も有能な動きフレームを予測する。
HDTFとVoxCelebの実験では、KSDiffの最先端性能が証明され、唇の同期精度と頭部の自然さが向上した。
- 参考スコア(独自算出の注目度): 4.952724424448834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven facial animation has made significant progress in multimedia applications, with diffusion models showing strong potential for talking-face synthesis. However, most existing works treat speech features as a monolithic representation and fail to capture their fine-grained roles in driving different facial motions, while also overlooking the importance of modeling keyframes with intense dynamics. To address these limitations, we propose KSDiff, a Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework. Specifically, the raw audio and transcript are processed by a Dual-Path Speech Encoder (DPSE) to disentangle expression-related and head-pose-related features, while an autoregressive Keyframe Establishment Learning (KEL) module predicts the most salient motion frames. These components are integrated into a Dual-path Motion generator to synthesize coherent and realistic facial motions. Extensive experiments on HDTF and VoxCeleb demonstrate that KSDiff achieves state-of-the-art performance, with improvements in both lip synchronization accuracy and head-pose naturalness. Our results highlight the effectiveness of combining speech disentanglement with keyframe-aware diffusion for talking-head generation.
- Abstract(参考訳): 音声駆動の顔アニメーションはマルチメディアアプリケーションにおいて大きな進歩を遂げており、拡散モデルは音声合成の強力な可能性を示している。
しかしながら、既存のほとんどの研究は、音声特徴をモノリシックな表現として扱い、異なる顔の動きを駆動する際の細かい役割を捉えることができず、同時に、強烈なダイナミクスを持つキーフレームをモデル化することの重要性も見落としている。
これらの制約に対処するため、KSDiffは、キーフレーム対応の音声対応デュアルパス拡散フレームワークである。
具体的には、生音声と書き起こしをDual-Path Speech Encoder(DPSE)で処理し、表現関連および頭部関連の特徴を解消し、自動回帰的キーフレーム設定学習(KEL)モジュールは最も有能な動きフレームを予測する。
これらのコンポーネントはデュアルパスモーションジェネレータに統合され、コヒーレントでリアルな顔の動きを合成する。
HDTFとVoxCelebの大規模な実験により、KSDiffは、唇の同期精度と頭部の自然性の両方の改善とともに、最先端のパフォーマンスを達成することが示された。
提案手法は,音声のゆがみとキーフレームを意識した拡散を組み合わせた音声合成の有効性を強調した。
関連論文リスト
- Talking Head Generation via AU-Guided Landmark Prediction [48.30051606459973]
顔行動単位(AUs)を用いた微粒化表現制御による音声駆動音声ヘッド生成のための2段階フレームワークを提案する。
第1段階では、変動運動生成器は、音声およびAU強度から時間的にコヒーレントなランドマークシーケンスを予測する。
第2段階では、拡散に基づく合成器がこれらのランドマークと参照画像に調和したリアルなリップ同期ビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T04:01:57Z) - HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis [55.92704600574577]
HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
論文 参考訳(メタデータ) (2025-08-14T12:01:52Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion
Transformer [110.32147183360843]
音声駆動の3D顔アニメーションは多くのマルチメディアアプリケーションにとって重要である。
最近の研究は、このタスクにDiffusionモデルまたはTransformerアーキテクチャを使用する際の有望さを示している。
DiffSpeakerはトランスフォーマーをベースとしたネットワークで、新しいバイアス付条件付アテンションモジュールを備えている。
論文 参考訳(メタデータ) (2024-02-08T14:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。