論文の概要: Model See Model Do: Speech-Driven Facial Animation with Style Control
- arxiv url: http://arxiv.org/abs/2505.01319v1
- Date: Fri, 02 May 2025 14:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.068546
- Title: Model See Model Do: Speech-Driven Facial Animation with Style Control
- Title(参考訳): Model See Model Do:スタイル制御による音声駆動型顔アニメーション
- Authors: Yifang Pan, Karan Singh, Luiz Gustavo Hafemann,
- Abstract要約: 音声駆動の3D顔アニメーションは、仮想アバター、ゲーム、デジタルコンテンツ作成などのアプリケーションにおいて重要な役割を果たす。
既存の手法は、正確な唇同期を実現し、基本的な感情表現を生成するために大きな進歩を遂げてきた。
本稿では,参照スタイルクリップ上で遅延拡散モデルを条件とした新しい例ベース生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.506128477193991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D facial animation plays a key role in applications such as virtual avatars, gaming, and digital content creation. While existing methods have made significant progress in achieving accurate lip synchronization and generating basic emotional expressions, they often struggle to capture and effectively transfer nuanced performance styles. We propose a novel example-based generation framework that conditions a latent diffusion model on a reference style clip to produce highly expressive and temporally coherent facial animations. To address the challenge of accurately adhering to the style reference, we introduce a novel conditioning mechanism called style basis, which extracts key poses from the reference and additively guides the diffusion generation process to fit the style without compromising lip synchronization quality. This approach enables the model to capture subtle stylistic cues while ensuring that the generated animations align closely with the input speech. Extensive qualitative, quantitative, and perceptual evaluations demonstrate the effectiveness of our method in faithfully reproducing the desired style while achieving superior lip synchronization across various speech scenarios.
- Abstract(参考訳): 音声駆動の3D顔アニメーションは、仮想アバター、ゲーム、デジタルコンテンツ作成などのアプリケーションにおいて重要な役割を果たす。
既存の手法は、正確な唇の同期と基本的な感情表現の生成において大きな進歩を遂げてきたが、それらはしばしば、ニュアンスのある演奏スタイルを捉え、効果的に伝達するのに苦労している。
本稿では,参照スタイルのクリップに潜時拡散モデルを適用し,高表現性と時間的に整合した顔アニメーションを生成する新しい例ベース生成フレームワークを提案する。
スタイル参照に正確に付着する課題に対処するために,スタイルベースと呼ばれる新しい条件付け機構を導入し,参照からキーポーズを抽出し,唇の同期品質を損なうことなく拡散生成プロセスに適合するように付加的に誘導する。
このアプローチにより、生成したアニメーションが入力音声と密接に一致することを確保しながら、微妙なスタイル的手がかりを捉えることができる。
様々な音声シナリオにおいて優れた唇同期を実現しつつ, 所望のスタイルを忠実に再現する手法の有効性を, 質的, 定量的, 知覚的評価で実証した。
関連論文リスト
- ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model [41.35209566957009]
音声駆動型3D顔アニメーションは、任意の音声クリップから3Dヘッドモデルのリアルな唇の動きと表情を生成することを目的としている。
本研究では,高度に同期した唇の動きと,リアルな頭部ポーズと瞬きをリアルタイムに生成する自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2025-02-27T17:49:01Z) - SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [64.28263381647628]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-09-05T06:27:32Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer [44.39474584573651]
本稿では、中立な光リアルアバターを再生するための教師なし変動型転送モデル(VAST)を提案する。
本モデルは,映像のプロンプトから表情表現を抽出するスタイルエンコーダと,正確な音声関連動作をモデル化するハイブリッド表情デコーダの3つの重要な構成要素から構成される。
顔のスタイル学習に欠かせない設計で、任意のビデオプロンプトから表現スタイルを柔軟に捉え、ゼロショットでパーソナライズされた画像に転送することができる。
論文 参考訳(メタデータ) (2023-08-09T09:38:14Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。