論文の概要: Supervising 3D Talking Head Avatars with Analysis-by-Audio-Synthesis
- arxiv url: http://arxiv.org/abs/2504.13386v1
- Date: Fri, 18 Apr 2025 00:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 19:56:41.626266
- Title: Supervising 3D Talking Head Avatars with Analysis-by-Audio-Synthesis
- Title(参考訳): Audio-Synthesis を用いた3次元対話型頭部アバターの監視
- Authors: Radek Daněček, Carolin Schmitt, Senya Polikovsky, Michael J. Black,
- Abstract要約: 本稿では,3次元対話型アバターフレームワークTHUNDERを提案する。
THUNDERは、多彩で高品質で表現力のある表情のアニメーションを生成できる一方で、会話ヘッドアバターのリップシンクの質を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 44.503709089687014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to be widely applicable, speech-driven 3D head avatars must articulate their lips in accordance with speech, while also conveying the appropriate emotions with dynamically changing facial expressions. The key problem is that deterministic models produce high-quality lip-sync but without rich expressions, whereas stochastic models generate diverse expressions but with lower lip-sync quality. To get the best of both, we seek a stochastic model with accurate lip-sync. To that end, we develop a new approach based on the following observation: if a method generates realistic 3D lip motions, it should be possible to infer the spoken audio from the lip motion. The inferred speech should match the original input audio, and erroneous predictions create a novel supervision signal for training 3D talking head avatars with accurate lip-sync. To demonstrate this effect, we propose THUNDER (Talking Heads Under Neural Differentiable Elocution Reconstruction), a 3D talking head avatar framework that introduces a novel supervision mechanism via differentiable sound production. First, we train a novel mesh-to-speech model that regresses audio from facial animation. Then, we incorporate this model into a diffusion-based talking avatar framework. During training, the mesh-to-speech model takes the generated animation and produces a sound that is compared to the input speech, creating a differentiable analysis-by-audio-synthesis supervision loop. Our extensive qualitative and quantitative experiments demonstrate that THUNDER significantly improves the quality of the lip-sync of talking head avatars while still allowing for generation of diverse, high-quality, expressive facial animations.
- Abstract(参考訳): 広範に適応するためには、音声駆動の3Dヘッドアバターは、表情を動的に変化させて適切な感情を伝達しながら、音声に応じて唇を明瞭にする必要がある。
鍵となる問題は、決定論的モデルは高品質なリップシンクを生成するが、リッチな表現がないのに対して、確率論的モデルは多様な表現を生成するが、リップシンクの品質は低いことである。
両者を最大限に活用するために、正確なリップシンクによる確率モデルを求める。
そこで本研究では,本手法が現実的な3次元唇の動きを生成する場合,その動きから発声音声を推測する手法を提案する。
推定音声は、元の入力音声と一致し、誤予測は、正確なリップシンクで3Dトーキングヘッドアバターを訓練するための新しい監視信号を生成する。
この効果を実証するために,識別可能な音声生成による新しい監視機構を導入する3次元話しヘッドアバターフレームワークであるTHUNDERを提案する。
まず、顔のアニメーションから音声を抑圧する新しいメッシュ音声合成モデルを訓練する。
そして,このモデルを拡散型音声アバターフレームワークに組み込む。
トレーニング中、メッシュ・トゥ・音声モデルは生成されたアニメーションを取り込み、入力音声と比較した音声を生成し、音響合成の異なる分析ループを生成する。
我々の広範囲にわたる質的および定量的実験により、THUNDERは、多彩で高品質で表現力のある顔アニメーションを生成できる一方で、会話ヘッドアバターのリップシンクの質を著しく改善することが示された。
関連論文リスト
- Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics [14.290468730787772]
音声信号と3次元顔メッシュの複雑な対応をキャプチャする音声-メシュ同期表現を提案する。
実験の結果, 知覚的損失を伴う3次元音声音声生成モデルの訓練は, 知覚的に正確な唇同期の3つの側面を著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-03-26T08:18:57Z) - ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model [41.35209566957009]
音声駆動型3D顔アニメーションは、任意の音声クリップから3Dヘッドモデルのリアルな唇の動きと表情を生成することを目的としている。
本研究では,高度に同期した唇の動きと,リアルな頭部ポーズと瞬きをリアルタイムに生成する自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2025-02-27T17:49:01Z) - AV-Flow: Transforming Text to Audio-Visual Human-like Interactions [101.31009576033776]
AV-Flowは、テキスト入力のみを与えられた写真リアリスティックな4D音声アバターを識別するオーディオ視覚生成モデルである。
人間の音声合成, 唇の動きの同期, 表情の鮮やかさ, 頭ポーズを実演した。
論文 参考訳(メタデータ) (2025-02-18T18:56:18Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert [13.60808166889775]
口唇の動きを正確に生成するための音声駆動型3次元顔アニメーション法を提案する。
この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。
提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
論文 参考訳(メタデータ) (2024-07-01T07:39:28Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - A Novel Speech-Driven Lip-Sync Model with CNN and LSTM [12.747541089354538]
可変長音声入力から3次元テンプレート顔モデルの変位を生成するために,一次元畳み込みとLSTMを組み合わせたディープニューラルネットワークを提案する。
異なる音声信号に対するネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用して音声特徴を抽出する。
本モデルでは, 音声に同期したスムーズで自然な唇の動きを生成できることが示されている。
論文 参考訳(メタデータ) (2022-05-02T13:57:50Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。