論文の概要: DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion
- arxiv url: http://arxiv.org/abs/2504.04010v1
- Date: Sat, 05 Apr 2025 01:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:13:49.216798
- Title: DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion
- Title(参考訳): DitaiListener: 拡散による制御可能な高忠実度リスナービデオ生成
- Authors: Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani,
- Abstract要約: マルチモーダル条件の動画拡散モデルを用いたDitaiListenerを提案する。
提案手法はまず,Di TaiListener-Gen を用いた話者の音声と顔の動きを条件としたリスナー応答の短いセグメントを生成する。
長大なビデオ生成のために,動画拡散モデルであるDi TaiListener-Editを導入する。
- 参考スコア(独自算出の注目度): 7.258255233732448
- License:
- Abstract: Generating naturalistic and nuanced listener motions for extended interactions remains an open problem. Existing methods often rely on low-dimensional motion codes for facial behavior generation followed by photorealistic rendering, limiting both visual fidelity and expressive richness. To address these challenges, we introduce DiTaiListener, powered by a video diffusion model with multimodal conditions. Our approach first generates short segments of listener responses conditioned on the speaker's speech and facial motions with DiTaiListener-Gen. It then refines the transitional frames via DiTaiListener-Edit for a seamless transition. Specifically, DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener head portrait generation by introducing a Causal Temporal Multimodal Adapter (CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter integrates speakers' input in a causal manner into the video generation process to ensure temporally coherent listener responses. For long-form video generation, we introduce DiTaiListener-Edit, a transition refinement video-to-video diffusion model. The model fuses video segments into smooth and continuous videos, ensuring temporal consistency in facial expressions and image quality when merging short video segments produced by DiTaiListener-Gen. Quantitatively, DiTaiListener achieves the state-of-the-art performance on benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion representation (+6.1% in FD metric on VICO) spaces. User studies confirm the superior performance of DiTaiListener, with the model being the clear preference in terms of feedback, diversity, and smoothness, outperforming competitors by a significant margin.
- Abstract(参考訳): 拡張相互作用のための自然主義的およびニュアンス付きリスナー運動を生成することは、未解決の問題である。
既存の方法は、視覚的忠実さと表現豊かさの両方を制限する、フォトリアリスティックレンダリングに続き、顔の行動生成のための低次元のモーションコードに頼っていることが多い。
これらの課題に対処するために,マルチモーダル条件の動画拡散モデルを用いたDitaiListenerを提案する。
提案手法はまず,Di TaiListener-Gen を用いた話者の音声と顔の動きを条件としたリスナー応答の短いセグメントを生成する。
その後、DitaiListener-Editを通じてトランザクショナルフレームを洗練し、シームレスなトランジションを実現する。
具体的には、DitaiListener-Genは、聴取者の頭部像生成のタスクに拡散変換器(DiT)を適用し、CTM-Adapter(Causal Temporal Multimodal Adapter)を導入して、話者の聴覚および視覚的手がかりを処理する。
CTM-Adapterは、話者の入力を因果的にビデオ生成プロセスに統合し、時間的コヒーレントなリスナー応答を保証する。
長大なビデオ生成のために,動画拡散モデルであるDi TaiListener-Editを導入する。
このモデルは、ビデオセグメントをスムーズで連続的なビデオに融合し、DitaiListener-Genが生成した短いビデオセグメントをマージする際に、表情と画質の時間的一貫性を確保する。
定量的に、DitaiListenerは、フォトリアリズム(RealTalk上のFIDの+73.8%)とモーション表現(VICO上のFDメトリックの+6.1%)の両方で、ベンチマークデータセットの最先端のパフォーマンスを達成する。
ユーザスタディは、DitaiListenerの優れたパフォーマンスを確認し、モデルがフィードバック、多様性、スムーズさの点で明確な選好であり、競争相手をかなり上回っている。
関連論文リスト
- DiffListener: Discrete Diffusion Model for Listener Generation [2.80888070977859]
リスナーヘッド生成タスクは、話者のマルチモーダルキューに基づいて、自然な非言語的リスナー応答を生成することを目的としている。
非自己回帰型リスナーヘッド生成のための離散拡散に基づくDiffListenerを提案する。
我々のモデルは、話者の顔情報、音声、テキストを入力とし、さらに表情や動きの時間的ダイナミクスを表現するために、顔差情報を統合する。
論文 参考訳(メタデータ) (2025-02-05T07:57:15Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。