論文の概要: PGSTalker: Real-Time Audio-Driven Talking Head Generation via 3D Gaussian Splatting with Pixel-Aware Density Control
- arxiv url: http://arxiv.org/abs/2509.16922v1
- Date: Sun, 21 Sep 2025 05:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.035972
- Title: PGSTalker: Real-Time Audio-Driven Talking Head Generation via 3D Gaussian Splatting with Pixel-Aware Density Control
- Title(参考訳): PGSTalker: 画素認識密度制御による3次元ガウス平滑化によるリアルタイム音声駆動型トーキングヘッド生成
- Authors: Tianheng Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng,
- Abstract要約: PGSTalkerは3次元ガウススプラッティングに基づくリアルタイム音声駆動音声ヘッド合成フレームワークである(3DGS)。
レンダリング性能を向上させるため,画素認識密度制御手法を提案し,点密度を適応的に割り当て,動的顔領域のディテールを向上し,冗長性を低減した。
- 参考スコア(独自算出の注目度): 37.390794417927644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-driven talking head generation is crucial for applications in virtual reality, digital avatars, and film production. While NeRF-based methods enable high-fidelity reconstruction, they suffer from low rendering efficiency and suboptimal audio-visual synchronization. This work presents PGSTalker, a real-time audio-driven talking head synthesis framework based on 3D Gaussian Splatting (3DGS). To improve rendering performance, we propose a pixel-aware density control strategy that adaptively allocates point density, enhancing detail in dynamic facial regions while reducing redundancy elsewhere. Additionally, we introduce a lightweight Multimodal Gated Fusion Module to effectively fuse audio and spatial features, thereby improving the accuracy of Gaussian deformation prediction. Extensive experiments on public datasets demonstrate that PGSTalker outperforms existing NeRF- and 3DGS-based approaches in rendering quality, lip-sync precision, and inference speed. Our method exhibits strong generalization capabilities and practical potential for real-world deployment.
- Abstract(参考訳): 音声駆動音声ヘッド生成は、バーチャルリアリティー、デジタルアバター、映画制作におけるアプリケーションに不可欠である。
NeRFベースの手法は高忠実度再構成を可能にするが、低レンダリング効率とオーディオ-視覚同期に悩まされる。
PGSTalkerは3D Gaussian Splatting(3DGS)に基づくリアルタイム音声駆動音声ヘッド合成フレームワークである。
レンダリング性能を向上させるため,画素認識密度制御手法を提案し,点密度を適応的に割り当て,動的顔領域のディテールを向上し,冗長性を低減した。
さらに,音声と空間的特徴を効果的に融合する軽量なマルチモーダル・ゲーテッド・フュージョン・モジュールを導入し,ガウス変形予測の精度を向上させる。
公開データセットに対する大規模な実験により、PGSTalkerは、レンダリング品質、リップシンク精度、推論速度において、既存のNeRFおよび3DGSベースのアプローチより優れていることが示された。
本手法は,実世界の展開に強い一般化能力と実用的な可能性を示す。
関連論文リスト
- Perceive-Sample-Compress: Towards Real-Time 3D Gaussian Splatting [7.421996491601524]
本稿では,3次元ガウス平滑化のための新しい知覚・サンプル圧縮フレームワークを提案する。
提案手法は,リアルタイムレンダリング速度を維持しながら,メモリ効率と視覚的品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T01:34:38Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - Event3DGS: Event-Based 3D Gaussian Splatting for High-Speed Robot Egomotion [54.197343533492486]
Event3DGSは高速移動下で高忠実度3D構造と外観を再構築することができる。
複数の合成および実世界のデータセットの実験は、既存のイベントベースの高密度な3Dシーン再構築フレームワークと比較して、Event3DGSの優位性を示している。
また, 構造的精度を損なうことなく, 外観の忠実度をより高められるように, フレームベースで数回の動特性測定を再構成プロセスに組み込むことも可能である。
論文 参考訳(メタデータ) (2024-06-05T06:06:03Z) - GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting [57.59261043916292]
GStalker(GStalker)は、ガウシアン・スプラッティング(英語版)による3D音声駆動の音声顔生成モデルである。
高速なトレーニングとリアルタイムレンダリング速度で、高忠実度とオーディオリップの同期結果を生成することができる。
論文 参考訳(メタデータ) (2024-04-29T18:28:36Z) - GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting [27.699313086744237]
GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。
話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。
Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
論文 参考訳(メタデータ) (2024-04-22T09:51:43Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。