論文の概要: SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion
- arxiv url: http://arxiv.org/abs/2502.11515v1
- Date: Mon, 17 Feb 2025 07:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:45.145453
- Title: SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion
- Title(参考訳): SayAnything: 条件付きビデオ拡散によるオーディオ駆動型リップ同期
- Authors: Junxian Ma, Shiwen Wang, Jian Yang, Junyi Hu, Jian Liang, Guosheng Lin, Jingbo chen, Kai Li, Yu Meng,
- Abstract要約: SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
- 参考スコア(独自算出の注目度): 78.77211425667542
- License:
- Abstract: Recent advances in diffusion models have led to significant progress in audio-driven lip synchronization. However, existing methods typically rely on constrained audio-visual alignment priors or multi-stage learning of intermediate representations to force lip motion synthesis. This leads to complex training pipelines and limited motion naturalness. In this paper, we present SayAnything, a conditional video diffusion framework that directly synthesizes lip movements from audio input while preserving speaker identity. Specifically, we propose three specialized modules including identity preservation module, audio guidance module, and editing control module. Our novel design effectively balances different condition signals in the latent space, enabling precise control over appearance, motion, and region-specific generation without requiring additional supervision signals or intermediate representations. Extensive experiments demonstrate that SayAnything generates highly realistic videos with improved lip-teeth coherence, enabling unseen characters to say anything, while effectively generalizing to animated characters.
- Abstract(参考訳): 拡散モデルの最近の進歩は、オーディオ駆動型唇同期の著しい進歩をもたらした。
しかし、既存の手法は、通常、唇の動き合成を強制するために、制約付きオーディオ-視覚的アライメントの先行や中間表現の多段階学習に依存している。
これにより、複雑なトレーニングパイプラインや、動きの自然さが制限される。
本稿では,話者識別を保ちながら音声入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークSayAnythingを提案する。
具体的には、アイデンティティ保護モジュール、オーディオガイダンスモジュール、編集制御モジュールを含む3つの特別モジュールを提案する。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、追加の監視信号や中間表現を必要とせず、外観、動き、地域固有の生成を正確に制御できる。
広範囲にわたる実験により、SayAnythingは、唇歯のコヒーレンスを改善した非常にリアルなビデオを生成し、目に見えないキャラクターが何でも話せるようにし、アニメーションキャラクターに効果的に一般化することを示した。
関連論文リスト
- MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。
我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文 参考訳(メタデータ) (2024-08-18T03:59:57Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance [13.050998759819933]
OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。
画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。
また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
論文 参考訳(メタデータ) (2024-05-23T15:42:34Z) - Talking Head Generation with Probabilistic Audio-to-Visual Diffusion
Priors [18.904856604045264]
ワンショット音声駆動音声ヘッド生成のためのシンプルで斬新なフレームワークを提案する。
入力音声を意味的に一致させるために,全唇不関連顔の動きを確率的にサンプリングする。
従来の拡散の確率的性質のおかげで、我々のフレームワークの大きな利点は、多様な顔の動きシーケンスを合成できることである。
論文 参考訳(メタデータ) (2022-12-07T17:55:41Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。