論文の概要: MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
- arxiv url: http://arxiv.org/abs/2412.04448v1
- Date: Thu, 05 Dec 2024 18:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:27.329547
- Title: MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
- Title(参考訳): MEMO: 映像生成のためのメモリガイド拡散
- Authors: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan,
- Abstract要約: メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
- 参考スコア(独自算出の注目度): 55.95148886437854
- License:
- Abstract: Recent advances in video diffusion models have unlocked new potential for realistic audio-driven talking video generation. However, achieving seamless audio-lip synchronization, maintaining long-term identity consistency, and producing natural, audio-aligned expressions in generated talking videos remain significant challenges. To address these challenges, we propose Memory-guided EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation approach to generate identity-consistent and expressive talking videos. Our approach is built around two key modules: (1) a memory-guided temporal module, which enhances long-term identity consistency and motion smoothness by developing memory states to store information from a longer past context to guide temporal modeling via linear attention; and (2) an emotion-aware audio module, which replaces traditional cross attention with multi-modal attention to enhance audio-video interaction, while detecting emotions from audio to refine facial expressions via emotion adaptive layer norm. Extensive quantitative and qualitative results demonstrate that MEMO generates more realistic talking videos across diverse image and audio types, outperforming state-of-the-art methods in overall quality, audio-lip synchronization, identity consistency, and expression-emotion alignment.
- Abstract(参考訳): 映像拡散モデルの最近の進歩は、現実的な音声駆動音声ビデオ生成の新しい可能性を解き放っている。
しかし、シームレスな音声-リップ同期の実現、長期的なアイデンティティの整合性維持、生成した音声ビデオにおける自然な音声整合表現の生成は大きな課題である。
これらの課題に対処するために,個人対応かつ表現力のある音声ビデオを生成するために,エンド・ツー・エンドのオーディオ駆動型ポートレートアニメーション手法であるメモリ誘導型エモジョン・アウェア・ディフュージョン(MEMO)を提案する。
本手法は,(1) 記憶状態の発達による長期的アイデンティティの整合性と動作の平滑性の向上を図ったメモリ誘導時間モジュールと,(2) 感情適応層ノルムによる表情の表現を検知しながら,従来のクロスアテンションをマルチモーダルアテンションに置き換えた感情認識オーディオモジュールの2つの主要なモジュールを中心に構築されている。
広範に定量的、質的な結果から、MEMOは様々な画像や音声タイプにまたがるよりリアルな会話ビデオを生成し、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、最先端の手法より優れています。
関連論文リスト
- EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。
本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文 参考訳(メタデータ) (2024-07-23T15:05:55Z) - Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition [29.414663568089292]
音声-視覚音声認識は、音声とビデオの両方のモダリティを用いて人間の音声を転写することを目的としている。
本研究では,映像データ中の3つの時間的ダイナミクスを学習することにより,映像特徴の強化を図る。
LRS2 と LRS3 の AVSR ベンチマークにおいて,ノイズ優越性設定のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-04T01:25:20Z) - Detail-Enhanced Intra- and Inter-modal Interaction for Audio-Visual Emotion Recognition [8.261744063074612]
オーディオ・ビジュアル・感情認識(AVER)のための細部強化型イントラモーダル・インターモーダル・インタラクション・ネットワーク(DE-III)を提案する。
我々は,顔の状態変化をよりよく捉えたテクスチャで映像表現を豊かにするために,光学フロー情報を導入する。
融合モジュールは、光学フロー推定を対応するビデオフレームと統合し、顔のテクスチャ変化の表現を強化する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。