論文の概要: GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2404.16012v2
- Date: Thu, 25 Apr 2024 10:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:31:49.100517
- Title: GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting
- Title(参考訳): GaussianTalker: オーディオ駆動型3Dガウススプレイティングによるリアルタイム高忠実トーキングヘッド合成
- Authors: Kyusun Cho, Joungbin Lee, Heeji Yoon, Yeobin Hong, Jaehoon Ko, Sangjun Ahn, Seungryong Kim,
- Abstract要約: ポーズ制御可能な音声ヘッドをリアルタイムに生成するための新しいフレームワークを提案する。
GaussianTalkerは、ヘッドの標準的な3DGS表現を構築し、オーディオと同期して変形する。
空間認識機能を活用し、近隣の点間の相互作用を強制する。
- 参考スコア(独自算出の注目度): 25.78134656333095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose GaussianTalker, a novel framework for real-time generation of pose-controllable talking heads. It leverages the fast rendering capabilities of 3D Gaussian Splatting (3DGS) while addressing the challenges of directly controlling 3DGS with speech audio. GaussianTalker constructs a canonical 3DGS representation of the head and deforms it in sync with the audio. A key insight is to encode the 3D Gaussian attributes into a shared implicit feature representation, where it is merged with audio features to manipulate each Gaussian attribute. This design exploits the spatial-aware features and enforces interactions between neighboring points. The feature embeddings are then fed to a spatial-audio attention module, which predicts frame-wise offsets for the attributes of each Gaussian. It is more stable than previous concatenation or multiplication approaches for manipulating the numerous Gaussians and their intricate parameters. Experimental results showcase GaussianTalker's superiority in facial fidelity, lip synchronization accuracy, and rendering speed compared to previous methods. Specifically, GaussianTalker achieves a remarkable rendering speed up to 120 FPS, surpassing previous benchmarks. Our code is made available at https://github.com/KU-CVLAB/GaussianTalker/ .
- Abstract(参考訳): ポーズ制御可能な音声ヘッドをリアルタイムに生成するための新しいフレームワークであるGaussianTalkerを提案する。
3D Gaussian Splatting(3DGS)の高速レンダリング機能を活用し、音声で直接3DGSを制御するという課題に対処する。
GaussianTalkerは頭部の標準的な3DGS表現を構築し、オーディオと同期して変形する。
重要な洞察は、3Dガウス属性を共有の暗黙的特徴表現にエンコードすることであり、各ガウス属性を操作するためにオーディオ機能とマージされる。
この設計は空間認識機能を活用し、近隣の点間の相互作用を強制する。
特徴埋め込みは空間音響アテンションモジュールに送られ、各ガウスの属性に対するフレームワイドオフセットを予測する。
これは、多くのガウスとその複雑なパラメータを操作するための以前の連結や乗法アプローチよりも安定である。
実験結果から, ガウシアントーマーの顔の忠実度, 唇の同期精度, レンダリング速度が従来法より優れていることが示された。
具体的には、GaussianTalkerは120FPSまでのレンダリング速度を達成し、以前のベンチマークを上回っている。
私たちのコードはhttps://github.com/KU-CVLAB/GaussianTalker/で利用可能です。
関連論文リスト
- GES: Generalized Exponential Splatting for Efficient Radiance Field
Rendering [116.99325082775387]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z) - CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians with
Dual Feature Fusion [17.778755539808547]
RGB画像のみを入力した高速レンダリング速度で3次元連続シーンセグメンテーションを実現する手法を提案する。
本モデルでは, セグメンテーションタスクのセグメンテーションにおいて, セグメンテーション・セグメンテーション・タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2024-01-11T14:05:01Z) - AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。
AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。
本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-08T18:56:33Z) - GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning [60.33970027554299]
ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。
本稿では,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルなアバターを生成する。
提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。
論文 参考訳(メタデータ) (2023-12-18T18:59:12Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [71.54526294251887]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
離散的でグループ化された3Dガウスアンは、視覚的品質、きめ細かい粒度、効率で、あらゆるものを3Dで再構成、分割、編集できることを示す。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z) - GaussianShader: 3D Gaussian Splatting with Shading Functions for
Reflective Surfaces [45.15827491185572]
反射面を持つシーンにおけるニューラルレンダリングを強化するために, 簡易シェーディング機能を3次元ガウスに応用する新しい手法を提案する。
実験の結果、ガウシアンシェーダーは効率と視覚的品質のバランスを保っていることがわかった。
論文 参考訳(メタデータ) (2023-11-29T17:22:26Z) - LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS [55.85673901231235]
光ガウシアン(LightGaussian)は、3次元ガウシアンをより効率的でコンパクトなフォーマットに変換する新しい方法である。
ネットワーク・プルーニング(Network Pruning)の概念からインスピレーションを得たLightGaussianは、シーンの再構築に貢献するに足りていないガウシアンを特定する。
本稿では,全ての属性を量子化するハイブリッド方式であるVecTree Quantizationを提案する。
論文 参考訳(メタデータ) (2023-11-28T21:39:20Z) - HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting [113.37908093915837]
既存の方法は、スコア蒸留サンプリング(SDS)を通じてメッシュやニューラルフィールドのような3D表現を最適化する。
本稿では,高精細な形状とリアルな外観を持つ高品質な3D人間を創出する,効率的かつ効果的な枠組みであるHumanGaussianを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Compact 3D Gaussian Representation for Radiance Field [14.729871192785696]
本研究では,3次元ガウス点数を削減するための学習可能なマスク戦略を提案する。
また、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2023-11-22T20:31:16Z) - Animatable 3D Gaussians for High-fidelity Synthesis of Human Motions [37.50707388577952]
本稿では,高忠実度自由視点人間の動きをリアルタイムにレンダリングするための,アニマタブルな3次元ガウスモデルを提案する。
既存のNeRFベースの手法と比較して、このモデルはビデオフレーム間のジッタリングの問題なく、高周波の詳細で優れた能力を持っている。
論文 参考訳(メタデータ) (2023-11-22T14:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。