論文の概要: ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model
- arxiv url: http://arxiv.org/abs/2502.20323v1
- Date: Thu, 27 Feb 2025 17:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:12.938691
- Title: ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model
- Title(参考訳): ARTalk: 自己回帰モデルによる音声駆動型3次元頭部アニメーション
- Authors: Xuangeng Chu, Nabarun Goswami, Ziteng Cui, Hanqin Wang, Tatsuya Harada,
- Abstract要約: 音声駆動型3D顔アニメーションは、任意の音声クリップから3Dヘッドモデルのリアルな唇の動きと表情を生成することを目的としている。
本研究では,高度に同期した唇の動きと,リアルな頭部ポーズと瞬きをリアルタイムに生成する自己回帰モデルを提案する。
- 参考スコア(独自算出の注目度): 41.35209566957009
- License:
- Abstract: Speech-driven 3D facial animation aims to generate realistic lip movements and facial expressions for 3D head models from arbitrary audio clips. Although existing diffusion-based methods are capable of producing natural motions, their slow generation speed limits their application potential. In this paper, we introduce a novel autoregressive model that achieves real-time generation of highly synchronized lip movements and realistic head poses and eye blinks by learning a mapping from speech to a multi-scale motion codebook. Furthermore, our model can adapt to unseen speaking styles using sample motion sequences, enabling the creation of 3D talking avatars with unique personal styles beyond the identities seen during training. Extensive evaluations and user studies demonstrate that our method outperforms existing approaches in lip synchronization accuracy and perceived quality.
- Abstract(参考訳): 音声駆動型3D顔アニメーションは、任意の音声クリップから3Dヘッドモデルのリアルな唇の動きと表情を生成することを目的としている。
既存の拡散法は自然運動を生成できるが、その遅い生成速度は応用可能性を制限する。
本稿では,音声からマルチスケールモーションコードブックへのマッピングを学習することにより,高度に同期した唇の動きとリアルな頭部ポーズ,および瞬きをリアルタイムに生成する,新しい自己回帰モデルを提案する。
さらに,本モデルでは,サンプル動作シーケンスを用いて未知の発話スタイルに適応することが可能であり,トレーニング中に見られるアイデンティティを超えて,ユニークな個人的スタイルを持つ3D音声アバターを作成できる。
広汎な評価とユーザスタディにより,本手法はリップ同期精度と知覚品質において,既存の手法よりも優れていることが示された。
関連論文リスト
- GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - DiffusionTalker: Personalization and Acceleration for Speech-Driven 3D
Face Diffuser [12.576421368393113]
スピーチ駆動の3D顔アニメーションは、アカデミックや業界で魅力的なタスクだ。
近年のアプローチでは、音声駆動型3次元顔アニメーションの非決定論的事実を考察し、その課題に拡散モデルを適用している。
本研究では,DiffusionTalkerを提案する。DiffusionTalkerは,3次元顔アニメーションと知識蒸留を個人化して3次元アニメーション生成を高速化する,コントラスト学習を利用する拡散型手法である。
論文 参考訳(メタデータ) (2023-11-28T07:13:20Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven 3D Facial Animation from In-the-Wild Videos [16.76533748243908]
任意のオーディオクリップが与えられたとき、オーディオ駆動の3D顔アニメーションは、ライフスタイルの唇の動きと3Dヘッドのための表情を生成することを目的としている。
既存の方法は、通常、限られた数のオーディオ3Dスキャンペアを含む限られたパブリックな3Dデータセットを使用してモデルをトレーニングすることに依存する。
そこで本研究では,3次元顔アニメーションモデルをトレーニングするために,この2次元対話ヘッドビデオを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T13:53:05Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - A Novel Speech-Driven Lip-Sync Model with CNN and LSTM [12.747541089354538]
可変長音声入力から3次元テンプレート顔モデルの変位を生成するために,一次元畳み込みとLSTMを組み合わせたディープニューラルネットワークを提案する。
異なる音声信号に対するネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用して音声特徴を抽出する。
本モデルでは, 音声に同期したスムーズで自然な唇の動きを生成できることが示されている。
論文 参考訳(メタデータ) (2022-05-02T13:57:50Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。