論文の概要: MAGIC-Talk: Motion-aware Audio-Driven Talking Face Generation with Customizable Identity Control
- arxiv url: http://arxiv.org/abs/2510.22810v1
- Date: Sun, 26 Oct 2025 19:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.373748
- Title: MAGIC-Talk: Motion-aware Audio-Driven Talking Face Generation with Customizable Identity Control
- Title(参考訳): MAGIC-Talk: カスタマイズ可能なアイデンティティ制御による動き認識型音声駆動型顔生成
- Authors: Fatemeh Nazarieh, Zhenhua Feng, Diptesh Kanojia, Muhammad Awais, Josef Kittler,
- Abstract要約: MAGIC-Talkは、カスタマイズ可能な会話顔生成のためのワンショット拡散ベースのフレームワークである。
ReferenceNetはIDを保存し、テキストプロンプトによるきめ細かい顔の編集を可能にする。
AnimateNetは構造化された動き前処理を用いて動きコヒーレンスを向上させる。
- 参考スコア(独自算出の注目度): 48.94486508604052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking face generation has gained significant attention for applications in digital media and virtual avatars. While recent methods improve audio-lip synchronization, they often struggle with temporal consistency, identity preservation, and customization, especially in long video generation. To address these issues, we propose MAGIC-Talk, a one-shot diffusion-based framework for customizable and temporally stable talking face generation. MAGIC-Talk consists of ReferenceNet, which preserves identity and enables fine-grained facial editing via text prompts, and AnimateNet, which enhances motion coherence using structured motion priors. Unlike previous methods requiring multiple reference images or fine-tuning, MAGIC-Talk maintains identity from a single image while ensuring smooth transitions across frames. Additionally, a progressive latent fusion strategy is introduced to improve long-form video quality by reducing motion inconsistencies and flickering. Extensive experiments demonstrate that MAGIC-Talk outperforms state-of-the-art methods in visual quality, identity preservation, and synchronization accuracy, offering a robust solution for talking face generation.
- Abstract(参考訳): デジタルメディアや仮想アバターの応用において、音声による会話顔生成が注目されている。
最近の手法は音声-リップ同期を改善するが、時間的一貫性、アイデンティティの保存、カスタマイズに苦慮することが多い。
これらの課題に対処するために,一括拡散に基づく音声合成フレームワークMAGIC-Talkを提案する。
MAGIC-Talkは、IDを保存し、テキストプロンプトによるきめ細かい顔の編集を可能にするReferenceNetと、構造化された動き前処理を用いて動きのコヒーレンスを高めるAnimateNetで構成されている。
複数の参照画像や微調整を必要とする従来の方法とは異なり、MAGIC-Talkはフレーム間のスムーズな遷移を確保しながら、単一のイメージからのアイデンティティを維持する。
さらに, 動きの不整合を低減し, ゆらぎを低減し, 映像品質の向上を図るために, プログレッシブ潜伏融合戦略を導入する。
広汎な実験により、MAGIC-Talkは、視覚的品質、アイデンティティ保存、同期の精度において最先端の手法よりも優れており、会話顔生成のための堅牢なソリューションを提供する。
関連論文リスト
- AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective [15.69417162113696]
AvatarSyncは音素表現の自己回帰フレームワークであり、単一の参照画像からリアルなトーキングヘッドアニメーションを生成する。
AvatarSyncは,視覚的忠実度,時間的整合性,計算効率において,既存のトーキングヘッドアニメーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-15T15:34:02Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [48.94486508604052]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。
提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。
PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文 参考訳(メタデータ) (2024-12-10T18:51:31Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。