論文の概要: ConsistTalk: Intensity Controllable Temporally Consistent Talking Head Generation with Diffusion Noise Search
- arxiv url: http://arxiv.org/abs/2511.06833v1
- Date: Mon, 10 Nov 2025 08:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.157034
- Title: ConsistTalk: Intensity Controllable Temporally Consistent Talking Head Generation with Diffusion Noise Search
- Title(参考訳): ConsistTalk: 拡散雑音探索による時間的に一貫した発話ヘッド生成の強度制御
- Authors: Zhenjie Liu, Jianzhang Lu, Renjie Lu, Cong Liang, Shangfei Wang,
- Abstract要約: 拡散雑音探索を用いた新しい強度制御型音声ヘッド生成フレームワークである textbfTalk を紹介する。
まず,動作特徴を静的な外観から切り離すスタブファン光フロー誘導時間モジュール(OFT)を提案する。
第2に,マルチモーダル・教師・学生の知識蒸留により得られたtextbfAudio-to-Intensity (A2I) モデルを提案する。
- 参考スコア(独自算出の注目度): 8.993664585683055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video diffusion models have significantly enhanced audio-driven portrait animation. However, current methods still suffer from flickering, identity drift, and poor audio-visual synchronization. These issues primarily stem from entangled appearance-motion representations and unstable inference strategies. In this paper, we introduce \textbf{ConsistTalk}, a novel intensity-controllable and temporally consistent talking head generation framework with diffusion noise search inference. First, we propose \textbf{an optical flow-guided temporal module (OFT)} that decouples motion features from static appearance by leveraging facial optical flow, thereby reducing visual flicker and improving temporal consistency. Second, we present an \textbf{Audio-to-Intensity (A2I) model} obtained through multimodal teacher-student knowledge distillation. By transforming audio and facial velocity features into a frame-wise intensity sequence, the A2I model enables joint modeling of audio and visual motion, resulting in more natural dynamics. This further enables fine-grained, frame-wise control of motion dynamics while maintaining tight audio-visual synchronization. Third, we introduce a \textbf{diffusion noise initialization strategy (IC-Init)}. By enforcing explicit constraints on background coherence and motion continuity during inference-time noise search, we achieve better identity preservation and refine motion dynamics compared to the current autoregressive strategy. Extensive experiments demonstrate that ConsistTalk significantly outperforms prior methods in reducing flicker, preserving identity, and delivering temporally stable, high-fidelity talking head videos.
- Abstract(参考訳): 映像拡散モデルの最近の進歩は、オーディオ駆動のポートレートアニメーションを大幅に強化した。
しかし、現在の手法はいまだにフリッカリング、アイデンティティのドリフト、オーディオと視覚の同期の貧弱さに悩まされている。
これらの問題は、主に絡み合った外見の表現と不安定な推論戦略に起因している。
本稿では,拡散雑音探索を用いた新しい強度制御可能かつ時間的に一貫した音声ヘッド生成フレームワークである「textbf{ConsistTalk}」を紹介する。
まず,顔の光学的フローを活用することで動作特徴を静的な外観から切り離し,視覚的なフリックを低減し,時間的整合性を向上する「textbf{an Optical Flow-guided temporal Module (OFT)」を提案する。
第2に,マルチモーダルな教師・学生の知識蒸留によって得られる「textbf{Audio-to-Intensity (A2I) Model」を提案する。
音声と顔の速度特性をフレームワイドの強度シーケンスに変換することで、A2Iモデルは、オーディオと視覚運動のジョイントモデリングを可能にし、より自然なダイナミクスをもたらす。
これにより、音声と視覚の密接な同期を維持しながら、モーションダイナミクスのきめ細かなフレームワイズ制御が可能になる。
第3に,<textbf{diffusion noise initialization strategy (IC-Init)}を導入する。
推測時ノイズサーチにおける背景コヒーレンスや動き継続性の明示的な制約を課すことにより、現在の自己回帰戦略と比較して、アイデンティティの保存や動きのダイナミックスの向上を実現している。
大規模な実験により、ConsistTalkは、フリックの低減、アイデンティティの保存、時間的に安定した高忠実な会話ヘッドビデオの提供において、従来の方法よりも大幅に優れていたことが示されている。
関連論文リスト
- DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis [15.304037069236536]
DEMOは、音声駆動型トーキングヘッドビデオ合成のためのフローマッチング生成フレームワークである。
唇の動き、頭部のポーズ、視線を高度に制御する。
論文 参考訳(メタデータ) (2025-10-12T15:10:33Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation [36.098738197088124]
本研究では,遅延ビデオ生成を高速化する拡散再利用モードネットワークを提案する。
初期のデノナイジングステップの粗いきめのノイズは、連続するビデオフレーム間で高い動きの一貫性を示す。
Mo博士は、慎重に設計された軽量なフレーム間の動きを取り入れることで、これらの粗いノイズを次のフレームに伝播させる。
論文 参考訳(メタデータ) (2024-09-19T07:50:34Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。