論文の概要: Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval
- arxiv url: http://arxiv.org/abs/2604.23692v1
- Date: Sun, 26 Apr 2026 13:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.50187
- Title: Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval
- Title(参考訳): 動的マルチモーダル検索による因果音声駆動顔の動きのパーソナライズ
- Authors: Xuangeng Chu, Yu Han, Wei Mao, Shih-En Wei,
- Abstract要約: 因果顔の動き生成をパーソナライズするためのエンドツーエンドの因果的枠組みを提案する。
本手法は, リップ同期の精度, アイデンティティの整合性, 認識リアリズムにおいて, 最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 16.85147888618743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven facial animation is essential for immersive digital interaction, yet existing frameworks fail to reconcile real-time streaming with high-fidelity personalization. Current methods often rely on latency-inducing audio look-ahead, or require high user compliance to pre-encode static embeddings that fails to capture dynamic idiosyncrasies. We present an end-to-end causal framework for personalizing causal facial motion generation via dynamic multi-modal style retrieval, enabling ultra-low latency while uniquely leveraging unstructured style references. We introduce two key innovations: (1) a temporal hierarchical motion representation that captures global temporal context and high-frequency details while maintaining decoding causality, and (2) a multi-modal style retriever that jointly queries audio and motion to dynamically extract stylistic priors without breaking causality. This mechanism allows for scalable personalization with total flexibility regarding the number and contents of templates. By integrating these components into a causal autoregressive architecture, our method significantly outperforms state-of-the-art approaches in lip-sync accuracy, identity consistency, and perceived realism, supported by extensive quantitative evaluations and user studies.
- Abstract(参考訳): 没入型デジタルインタラクションには音声駆動の顔アニメーションが不可欠だが、既存のフレームワークでは高忠実度パーソナライズによるリアルタイムストリーミングの調整に失敗している。
現在のメソッドは、遅延を誘発するオーディオルックアヘッドに依存したり、動的慣用句のキャプチャに失敗する静的埋め込みを事前にエンコードするために、高いユーザコンプライアンスを必要とする場合が多い。
動的マルチモーダルスタイルの検索によって因果顔の動作生成をパーソナライズするためのエンドツーエンドの因果的枠組みを提案し,非構造化スタイルの参照を独自に活用しながら,超低レイテンシを実現する。
本稿では,(1)大域的時間的文脈と高頻度の詳細を捉えながら因果関係を復号する時間的階層的動き表現,(2)因果関係を破ることなく音声と動作を共同で問合せするマルチモーダルスタイル検索手法を提案する。
このメカニズムにより、テンプレートの数と内容に関する完全な柔軟性を備えたスケーラブルなパーソナライズが可能になる。
これらのコンポーネントを因果的自己回帰アーキテクチャに組み込むことで、リップ同期の精度、アイデンティティの整合性、知覚リアリズムにおける最先端のアプローチを著しく上回り、広範囲な定量的評価とユーザスタディによって支えられている。
関連論文リスト
- Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation [16.692450893925148]
リアルタイム・ポートレート・アニメーションのためのKnot Forcingという新しいストリーミング・フレームワークを提案する。
Kノットフォーシングは、無限列上の高忠実で時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にする。
論文 参考訳(メタデータ) (2025-12-25T16:34:56Z) - ConsistTalk: Intensity Controllable Temporally Consistent Talking Head Generation with Diffusion Noise Search [8.993664585683055]
拡散雑音探索を用いた新しい強度制御型音声ヘッド生成フレームワークである textbfTalk を紹介する。
まず,動作特徴を静的な外観から切り離すスタブファン光フロー誘導時間モジュール(OFT)を提案する。
第2に,マルチモーダル・教師・学生の知識蒸留により得られたtextbfAudio-to-Intensity (A2I) モデルを提案する。
論文 参考訳(メタデータ) (2025-11-10T08:28:13Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization [43.81805412365791]
人中心アニメーションに適した直接選好最適化を提案する。
第二に、提案した時間運動変調は、分解ミスマッチを解消する。
実験では, 口唇音の同期, 表情の鮮明さ, 体の動きのコヒーレンスをベースライン法より明らかに改善した。
論文 参考訳(メタデータ) (2025-05-29T15:04:00Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。