論文の概要: GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2404.16012v2
- Date: Thu, 25 Apr 2024 10:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:31:49.100517
- Title: GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting
- Title(参考訳): GaussianTalker: オーディオ駆動型3Dガウススプレイティングによるリアルタイム高忠実トーキングヘッド合成
- Authors: Kyusun Cho, Joungbin Lee, Heeji Yoon, Yeobin Hong, Jaehoon Ko, Sangjun Ahn, Seungryong Kim,
- Abstract要約: ポーズ制御可能な音声ヘッドをリアルタイムに生成するための新しいフレームワークを提案する。
GaussianTalkerは、ヘッドの標準的な3DGS表現を構築し、オーディオと同期して変形する。
空間認識機能を活用し、近隣の点間の相互作用を強制する。
- 参考スコア(独自算出の注目度): 25.78134656333095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose GaussianTalker, a novel framework for real-time generation of pose-controllable talking heads. It leverages the fast rendering capabilities of 3D Gaussian Splatting (3DGS) while addressing the challenges of directly controlling 3DGS with speech audio. GaussianTalker constructs a canonical 3DGS representation of the head and deforms it in sync with the audio. A key insight is to encode the 3D Gaussian attributes into a shared implicit feature representation, where it is merged with audio features to manipulate each Gaussian attribute. This design exploits the spatial-aware features and enforces interactions between neighboring points. The feature embeddings are then fed to a spatial-audio attention module, which predicts frame-wise offsets for the attributes of each Gaussian. It is more stable than previous concatenation or multiplication approaches for manipulating the numerous Gaussians and their intricate parameters. Experimental results showcase GaussianTalker's superiority in facial fidelity, lip synchronization accuracy, and rendering speed compared to previous methods. Specifically, GaussianTalker achieves a remarkable rendering speed up to 120 FPS, surpassing previous benchmarks. Our code is made available at https://github.com/KU-CVLAB/GaussianTalker/ .
- Abstract(参考訳): ポーズ制御可能な音声ヘッドをリアルタイムに生成するための新しいフレームワークであるGaussianTalkerを提案する。
3D Gaussian Splatting(3DGS)の高速レンダリング機能を活用し、音声で直接3DGSを制御するという課題に対処する。
GaussianTalkerは頭部の標準的な3DGS表現を構築し、オーディオと同期して変形する。
重要な洞察は、3Dガウス属性を共有の暗黙的特徴表現にエンコードすることであり、各ガウス属性を操作するためにオーディオ機能とマージされる。
この設計は空間認識機能を活用し、近隣の点間の相互作用を強制する。
特徴埋め込みは空間音響アテンションモジュールに送られ、各ガウスの属性に対するフレームワイドオフセットを予測する。
これは、多くのガウスとその複雑なパラメータを操作するための以前の連結や乗法アプローチよりも安定である。
実験結果から, ガウシアントーマーの顔の忠実度, 唇の同期精度, レンダリング速度が従来法より優れていることが示された。
具体的には、GaussianTalkerは120FPSまでのレンダリング速度を達成し、以前のベンチマークを上回っている。
私たちのコードはhttps://github.com/KU-CVLAB/GaussianTalker/で利用可能です。
関連論文リスト
- 3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes [87.01284850604495]
多視点画像から幾何学的に有意な放射場をモデル化するためのプリミティブとして3次元滑らかな凸を利用した3次元凸法(3DCS)を提案する。
3DCSは、MipNeizer, Tanks and Temples, Deep Blendingなどのベンチマークで、3DGSよりも優れたパフォーマンスを実現している。
本結果は,高品質なシーン再構築のための新しい標準となる3Dコンベクシングの可能性を強調した。
論文 参考訳(メタデータ) (2024-11-22T14:31:39Z) - Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos [58.22272760132996]
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。
単分子配置の難易度を目標とした3つのコア修正からなる動的ガウス大理石を提案する。
Nvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し,Gaussian Marblesが他のGaussianベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-26T19:37:07Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本稿では,現在のアプローチよりも優れた空間感性プルーニングスコアを提案する。
また,事前学習した任意の3D-GSモデルに適用可能なマルチラウンドプルーファインパイプラインを提案する。
我々のパイプラインは、3D-GSの平均レンダリング速度を2.65$times$で増加させ、より健全なフォアグラウンド情報を保持します。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - GaussianForest: Hierarchical-Hybrid 3D Gaussian Splatting for Compressed Scene Modeling [40.743135560583816]
本稿では,ハイブリッド3Dガウスの森として景観を階層的に表現するガウス・フォレスト・モデリング・フレームワークを紹介する。
実験により、ガウス・フォレストは同等の速度と品質を維持するだけでなく、圧縮速度が10倍を超えることが示されている。
論文 参考訳(メタデータ) (2024-06-13T02:41:11Z) - GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - RTG-SLAM: Real-time 3D Reconstruction at Scale using Gaussian Splatting [51.51310922527121]
ガウススプラッティングを用いた大規模環境のためのRGBDカメラを用いたリアルタイム3D再構成システムを提案する。
それぞれのガウス語は不透明かほぼ透明で、不透明なものは表面色と支配的な色に、透明なものは残留色に適合する。
様々な大きなシーンをリアルタイムに再現し、新しいビュー合成とカメラトラッキングの精度のリアリズムにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-30T16:54:59Z) - GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting [57.59261043916292]
GStalker(GStalker)は、ガウシアン・スプラッティング(英語版)による3D音声駆動の音声顔生成モデルである。
高速なトレーニングとリアルタイムレンダリング速度で、高忠実度とオーディオリップの同期結果を生成することができる。
論文 参考訳(メタデータ) (2024-04-29T18:28:36Z) - GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting [27.699313086744237]
GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。
話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。
Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
論文 参考訳(メタデータ) (2024-04-22T09:51:43Z) - GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。