論文の概要: MIRRORTALK: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control
- arxiv url: http://arxiv.org/abs/2601.22501v1
- Date: Fri, 30 Jan 2026 03:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.190554
- Title: MIRRORTALK: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control
- Title(参考訳): MIRRORTALK:パーソナライズされたアバターを鍛造する
- Authors: Renjie Lu, Xulong Zhang, Xiaoyang Qu, Jianzong Wang, Shangfei Wang,
- Abstract要約: MirrorTalkは条件付き拡散モデルに基づく生成フレームワークである。
簡単な参照ビデオから純粋なスタイルの表現を抽出することができる。
リップシンク精度とパーソナライズ保存の観点から,最先端手法に対する大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 42.87874090062771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing personalized talking faces that uphold and highlight a speaker's unique style while maintaining lip-sync accuracy remains a significant challenge. A primary limitation of existing approaches is the intrinsic confounding of speaker-specific talking style and semantic content within facial motions, which prevents the faithful transfer of a speaker's unique persona to arbitrary speech. In this paper, we propose MirrorTalk, a generative framework based on a conditional diffusion model, combined with a Semantically-Disentangled Style Encoder (SDSE) that can distill pure style representations from a brief reference video. To effectively utilize this representation, we further introduce a hierarchical modulation strategy within the diffusion process. This mechanism guides the synthesis by dynamically balancing the contributions of audio and style features across distinct facial regions, ensuring both precise lip-sync accuracy and expressive full-face dynamics. Extensive experiments demonstrate that MirrorTalk achieves significant improvements over state-of-the-art methods in terms of lip-sync accuracy and personalization preservation.
- Abstract(参考訳): パーソナライズされた会話顔の合成は、リップシンクの精度を維持しながら、話者のユニークなスタイルを保ち、強調する。
既存のアプローチの主な制限は、話者固有の話し方や、顔の動きのセマンティックな内容が本質的に混在することであり、これは話者の固有のペルソナを任意の音声に忠実に伝達することを防ぐ。
本論文では,条件拡散モデルに基づく生成フレームワークであるMirrorTalkとSemantically-Disentangled Style Encoder(SDSE)を組み合わせることで,簡単な参照ビデオから純粋なスタイル表現を抽出する。
さらに, この表現を効果的に活用するために, 拡散過程における階層的変調戦略を導入する。
このメカニズムは、異なる顔領域にまたがる音声とスタイルの特徴の寄与を動的にバランスさせ、正確なリップシンク精度と表現力のあるフルフェイスダイナミックスの両方を保証することによって、合成を導く。
大規模な実験により、MirrorTalkは、リップシンク精度とパーソナライズ保存の観点から、最先端の手法よりも大幅に改善されていることが示された。
関連論文リスト
- PTalker: Personalized Speech-Driven 3D Talking Head Animation via Style Disentanglement and Modality Alignment [19.347893658924367]
PTalkerは、パーソナライズされた3Dトーキングヘッドアニメーションのための新しいフレームワークである。
音声と顔の動きシーケンスからのスタイルの切り離しを通じて、話し方を保存する。
オーディオとメッシュの3レベルアライメント機構によって、リップ同期の精度を向上させる。
論文 参考訳(メタデータ) (2025-12-27T14:14:14Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion [53.26424100244925]
表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。
本研究では,条件付き変分オートエンコーダを用いた自己監督型非自己回帰型フレームワークを改良する。
論文 参考訳(メタデータ) (2025-06-04T14:42:12Z) - Model See Model Do: Speech-Driven Facial Animation with Style Control [14.506128477193991]
音声駆動の3D顔アニメーションは、仮想アバター、ゲーム、デジタルコンテンツ作成などのアプリケーションにおいて重要な役割を果たす。
既存の手法は、正確な唇同期を実現し、基本的な感情表現を生成するために大きな進歩を遂げてきた。
本稿では,参照スタイルクリップ上で遅延拡散モデルを条件とした新しい例ベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-02T14:47:21Z) - Shushing! Let's Imagine an Authentic Speech from the Silent Video [15.426152742881365]
視覚誘導音声生成は、聴覚信号に頼ることなく、顔の外観や唇の動きから真の音声を生成することを目的としている。
近年の進歩にもかかわらず、既存の手法は視覚的手がかりから意味論、音色、感情的な韻律を横断的に統一するのに苦労している。
ImaginTalkは、視覚入力のみを用いて忠実な音声を生成する新しいクロスモーダル拡散フレームワークである。
論文 参考訳(メタデータ) (2025-03-19T06:28:17Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。