論文の概要: EGSTalker: Real-Time Audio-Driven Talking Head Generation with Efficient Gaussian Deformation
- arxiv url: http://arxiv.org/abs/2510.08587v1
- Date: Fri, 03 Oct 2025 14:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 05:23:07.121688
- Title: EGSTalker: Real-Time Audio-Driven Talking Head Generation with Efficient Gaussian Deformation
- Title(参考訳): EGSTalker: 効率的なガウス変形を伴うリアルタイムオーディオ駆動型トーキングヘッド
- Authors: Tianheng Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng,
- Abstract要約: EGSTalkerは3次元ガウス分割に基づくリアルタイム音声駆動音声ヘッド生成フレームワーク(3DGS)
高品質の顔アニメーションを合成するには、ビデオのトレーニングにわずか3~5分しかかからない。
EGSTalkerは、最先端の手法に匹敵するレンダリング品質とリップシンクの精度を実現し、推論速度では大幅に優れています。
- 参考スコア(独自算出の注目度): 37.390794417927644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents EGSTalker, a real-time audio-driven talking head generation framework based on 3D Gaussian Splatting (3DGS). Designed to enhance both speed and visual fidelity, EGSTalker requires only 3-5 minutes of training video to synthesize high-quality facial animations. The framework comprises two key stages: static Gaussian initialization and audio-driven deformation. In the first stage, a multi-resolution hash triplane and a Kolmogorov-Arnold Network (KAN) are used to extract spatial features and construct a compact 3D Gaussian representation. In the second stage, we propose an Efficient Spatial-Audio Attention (ESAA) module to fuse audio and spatial cues, while KAN predicts the corresponding Gaussian deformations. Extensive experiments demonstrate that EGSTalker achieves rendering quality and lip-sync accuracy comparable to state-of-the-art methods, while significantly outperforming them in inference speed. These results highlight EGSTalker's potential for real-time multimedia applications.
- Abstract(参考訳): 本稿では,3Dガウススプラッティング(3DGS)に基づくリアルタイム音声駆動音声ヘッド生成フレームワークであるESSTalkerについて述べる。
EGSTalkerは、スピードと視覚の忠実さを両立させるように設計されており、高品質の顔アニメーションを合成するためには、トレーニングビデオの3~5分しか必要としない。
このフレームワークは静的ガウス初期化とオーディオ駆動変形という2つの重要なステージで構成されている。
第1段階では、多分解能ハッシュ三葉機とコルモゴロフ・アルノルドネットワーク(KAN)を用いて空間的特徴を抽出し、コンパクトな3次元ガウス表現を構築する。
第2段階では,音声と空間的手がかりを融合するESAAモジュールを提案し,これに対応するガウス変形を予測した。
EGSTalkerは、最先端の手法に匹敵するレンダリング品質とリップシンクの精度を実現し、推論速度で大幅に向上することを示した。
これらの結果は、リアルタイムマルチメディアアプリケーションにおけるESSTalkerの可能性を強調している。
関連論文リスト
- PGSTalker: Real-Time Audio-Driven Talking Head Generation via 3D Gaussian Splatting with Pixel-Aware Density Control [37.390794417927644]
PGSTalkerは3次元ガウススプラッティングに基づくリアルタイム音声駆動音声ヘッド合成フレームワークである(3DGS)。
レンダリング性能を向上させるため,画素認識密度制御手法を提案し,点密度を適応的に割り当て,動的顔領域のディテールを向上し,冗長性を低減した。
論文 参考訳(メタデータ) (2025-09-21T05:01:54Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo [54.00987996368157]
MVSGaussianは、Multi-View Stereo(MVS)から導かれる新しい一般化可能な3次元ガウス表現手法である。
MVSGaussianは、シーンごとにより良い合成品質でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2024-05-20T17:59:30Z) - GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting [57.59261043916292]
GStalker(GStalker)は、ガウシアン・スプラッティング(英語版)による3D音声駆動の音声顔生成モデルである。
高速なトレーニングとリアルタイムレンダリング速度で、高忠実度とオーディオリップの同期結果を生成することができる。
論文 参考訳(メタデータ) (2024-04-29T18:28:36Z) - GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting [27.699313086744237]
GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。
話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。
Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
論文 参考訳(メタデータ) (2024-04-22T09:51:43Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。