論文の概要: GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2404.19040v1
- Date: Mon, 29 Apr 2024 18:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:10:13.531575
- Title: GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting
- Title(参考訳): GSTalker: 変形可能なガウススプラッティングによるリアルタイム音声駆動型顔生成
- Authors: Bo Chen, Shoukang Hu, Qi Chen, Chenpeng Du, Ran Yi, Yanmin Qian, Xie Chen,
- Abstract要約: GStalker(GStalker)は、ガウシアン・スプラッティング(英語版)による3D音声駆動の音声顔生成モデルである。
高速なトレーニングとリアルタイムレンダリング速度で、高忠実度とオーディオリップの同期結果を生成することができる。
- 参考スコア(独自算出の注目度): 57.59261043916292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GStalker, a 3D audio-driven talking face generation model with Gaussian Splatting for both fast training (40 minutes) and real-time rendering (125 FPS) with a 3$\sim$5 minute video for training material, in comparison with previous 2D and 3D NeRF-based modeling frameworks which require hours of training and seconds of rendering per frame. Specifically, GSTalker learns an audio-driven Gaussian deformation field to translate and transform 3D Gaussians to synchronize with audio information, in which multi-resolution hashing grid-based tri-plane and temporal smooth module are incorporated to learn accurate deformation for fine-grained facial details. In addition, a pose-conditioned deformation field is designed to model the stabilized torso. To enable efficient optimization of the condition Gaussian deformation field, we initialize 3D Gaussians by learning a coarse static Gaussian representation. Extensive experiments in person-specific videos with audio tracks validate that GSTalker can generate high-fidelity and audio-lips synchronized results with fast training and real-time rendering speed.
- Abstract(参考訳): 高速トレーニング(40分)とリアルタイムレンダリング(125FPS)の両方に3Dオーディオ駆動の音声合成モデルであるGStalkerについて,従来の2Dおよび3D NeRFベースのモデリングフレームワークと比較して,3$\sim$5分のトレーニング材料用ビデオと3D NeRFベースのモデリングフレームワークについて述べる。
具体的には、GSTalkerは、音声駆動のガウス変形場を学習し、3Dガウスを変換し、オーディオ情報と同期させる。
さらに、安定した胴体をモデル化するために、ポーズ条件変形場を設計する。
条件ガウス変形場を効率的に最適化するために、粗い静的ガウス表現を学習して3次元ガウスを初期化する。
個人固有のビデオとオーディオトラックの大規模な実験により、GSTalkerは高速なトレーニングとリアルタイムレンダリング速度で、高忠実度およびオーディオリップの同期結果を生成することができることを確認した。
関連論文リスト
- Gaussian Time Machine: A Real-Time Rendering Methodology for Time-Variant Appearances [10.614750331310804]
軽量マルチ層パーセプトロン(MLP)で復号された離散時間埋め込みベクトルを持つガウス原始体の時間依存特性をモデル化したガウス時機械(GTM)を提案する。
GTMは3つのデータセットで最先端のレンダリングフィリティを達成し、レンダリングにおけるNeRFベースのレンダリングよりも100倍高速である。
論文 参考訳(メタデータ) (2024-05-22T14:40:42Z) - MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo [54.00987996368157]
MVSGaussianは、Multi-View Stereo(MVS)から導かれる新しい一般化可能な3次元ガウス表現手法である。
MVSGaussianは、シーンごとにより良い合成品質でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2024-05-20T17:59:30Z) - GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting [25.78134656333095]
ポーズ制御可能な音声ヘッドをリアルタイムに生成するための新しいフレームワークを提案する。
GaussianTalkerは、ヘッドの標準的な3DGS表現を構築し、オーディオと同期して変形する。
空間認識機能を活用し、近隣の点間の相互作用を強制する。
論文 参考訳(メタデータ) (2024-04-24T17:45:24Z) - GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting [27.699313086744237]
GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。
話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。
Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
論文 参考訳(メタデータ) (2024-04-22T09:51:43Z) - 2D Gaussian Splatting for Geometrically Accurate Radiance Fields [50.056790168812114]
3D Gaussian Splatting (3DGS)は近年,高画質の新規ビュー合成と高速レンダリングを実現し,放射界再構成に革命をもたらした。
多視点画像から幾何学的精度の高い放射場をモデル化・再構成するための新しいアプローチである2DGS(2D Gaussian Splatting)を提案する。
競合する外観品質、高速トレーニング速度、リアルタイムレンダリングを維持しつつ、ノイズフリーかつ詳細な幾何学的再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:21:24Z) - GaMeS: Mesh-Based Adapting and Modification of Gaussian Splatting [11.791944275269266]
メッシュと同じようにガウス成分を修正可能なガウスメッシュスプラッティング(GaMeS)モデルを導入する。
また、メッシュ上の位置のみに基づいてガウススプレートを定義し、アニメーション中の位置、スケール、回転を自動的に調整する。
論文 参考訳(メタデータ) (2024-02-02T14:50:23Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - Gaussian-Flow: 4D Reconstruction with Dynamic 3D Gaussian Particle [9.082693946898733]
高速な動的シーン再構成と,マルチビューおよびモノクロビデオからのリアルタイムレンダリングのための新しいポイントベースアプローチを提案する。
学習速度の遅さとレンダリング速度によって妨げられるNeRFベースのアプローチとは対照的に,我々はポイントベース3Dガウススプラッティング(3DGS)の最近の進歩を活用している。
提案手法は,フレームごとの3DGSモデリングと比較して,5倍のトレーニング速度を実現し,大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2023-12-06T11:25:52Z) - GauHuman: Articulated Gaussian Splatting from Monocular Human Videos [58.553979884950834]
GauHumanは、高速トレーニング(12分)とリアルタイムレンダリング(最大189FPS)の両方のためのガウススプラッティングを備えた3次元人体モデルである。
ガウフマンはカノニカル空間でガウススプラッティングを符号化し、3次元ガウスを線形ブレンドスキンニング(LBS)で正標準空間からポーズ空間に変換する
ZJU_MocapとMonoCapデータセットの実験は、GauHumanが高速なトレーニングとリアルタイムレンダリング速度によって、最先端のパフォーマンスを定量的に質的に達成していることを示している。
論文 参考訳(メタデータ) (2023-12-05T18:59:14Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。