論文の概要: IMTalker: Efficient Audio-driven Talking Face Generation with Implicit Motion Transfer
- arxiv url: http://arxiv.org/abs/2511.22167v1
- Date: Thu, 27 Nov 2025 07:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.434009
- Title: IMTalker: Efficient Audio-driven Talking Face Generation with Implicit Motion Transfer
- Title(参考訳): IMTalker: インシシト・モーション・トランスファーによる効率的な音声駆動型トーキング・フェイスジェネレーション
- Authors: Bo Chen, Tao Liu, Qi Chen, Xie Chen, Zilong Zheng,
- Abstract要約: IMTalkerは暗黙の動作伝達によって効率よく高忠実な会話顔生成を実現する新しいフレームワークである。
話者の同一性を維持するために,識別適応モジュールを導入する。
軽量なフローマッチングモーションジェネレータは、音声、ポーズ、および視線から鮮明で制御可能な暗黙のモーションベクターを生成する。
- 参考スコア(独自算出の注目度): 35.816717494490725
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Talking face generation aims to synthesize realistic speaking portraits from a single image, yet existing methods often rely on explicit optical flow and local warping, which fail to model complex global motions and cause identity drift. We present IMTalker, a novel framework that achieves efficient and high-fidelity talking face generation through implicit motion transfer. The core idea is to replace traditional flow-based warping with a cross-attention mechanism that implicitly models motion discrepancy and identity alignment within a unified latent space, enabling robust global motion rendering. To further preserve speaker identity during cross-identity reenactment, we introduce an identity-adaptive module that projects motion latents into personalized spaces, ensuring clear disentanglement between motion and identity. In addition, a lightweight flow-matching motion generator produces vivid and controllable implicit motion vectors from audio, pose, and gaze cues. Extensive experiments demonstrate that IMTalker surpasses prior methods in motion accuracy, identity preservation, and audio-lip synchronization, achieving state-of-the-art quality with superior efficiency, operating at 40 FPS for video-driven and 42 FPS for audio-driven generation on an RTX 4090 GPU. We will release our code and pre-trained models to facilitate applications and future research.
- Abstract(参考訳): 顔の生成は、単一の画像から現実的な話し言葉の肖像画を合成することを目的としているが、既存の方法は、しばしば明示的な光の流れと局所的なゆらぎに依存しており、複雑なグローバルな動きをモデル化し、アイデンティティドリフトを引き起こすのに失敗する。
暗黙的な動き伝達によって効率よく高忠実な会話顔生成を実現する新しいフレームワークIMTalkerを提案する。
その中核となる考え方は、従来のフローベースのワープを、統合された潜在空間内での運動の不一致とアイデンティティアライメントを暗黙的にモデル化し、ロバストなグローバルなモーションレンダリングを可能にするクロスアテンション機構に置き換えることである。
相互同一性の再演中に話者のアイデンティティをより保存するために,動作を個人化された空間に投影し,動作と同一性の間に明確な絡み合いを確実にするアイデンティティ適応モジュールを導入する。
さらに、軽量なフローマッチングモーションジェネレータは、オーディオ、ポーズ、視線から鮮明で制御可能な暗黙のモーションベクターを生成する。
広範囲にわたる実験により、IMTalkerはモーション精度、アイデンティティ保存、オーディオ-リップ同期の従来の手法を超越し、最先端の品質を優れた効率で達成し、ビデオ駆動で40FPS、オーディオ駆動で42FPSでRTX 4090 GPUで動作していることが示された。
私たちは、アプリケーションと将来の研究を促進するために、コードと事前訓練されたモデルをリリースします。
関連論文リスト
- DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis [15.304037069236536]
DEMOは、音声駆動型トーキングヘッドビデオ合成のためのフローマッチング生成フレームワークである。
唇の動き、頭部のポーズ、視線を高度に制御する。
論文 参考訳(メタデータ) (2025-10-12T15:10:33Z) - HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis [90.74616208952791]
HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
論文 参考訳(メタデータ) (2025-08-14T12:01:52Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。
最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。
第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文 参考訳(メタデータ) (2025-04-07T08:56:01Z) - PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [48.94486508604052]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。
提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。
PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文 参考訳(メタデータ) (2024-12-10T18:51:31Z) - FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait [11.670159942656129]
FLOATは,フローマッチング生成モデルに基づく音声駆動型音声画像生成手法である。
本手法は音声による感情強調をサポートし,表現運動の自然な取り込みを可能にする。
論文 参考訳(メタデータ) (2024-12-02T02:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。