論文の概要: Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2503.22605v1
- Date: Fri, 28 Mar 2025 16:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:30:59.613884
- Title: Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis
- Title(参考訳): リアルタイムトーキングヘッド合成のためのオーディオ・プラン:ガウス・スプレイティング
- Authors: Shuai Shen, Wanhua Li, Yunpeng Zhang, Weipeng Hu, Yap-Peng Tan,
- Abstract要約: 本稿では,Audio-Plane(Audio-Plane)をベースとしたガウススプラッティング(Gaussian Splatting)を用いた音声合成手法を提案する。
提案手法は,高精度な音声-リップ同期を確保しつつ,リアルタイムに高度にリアルな音声ビデオを合成することができる。
- 参考スコア(独自算出の注目度): 22.042129396991253
- License:
- Abstract: Talking head synthesis has become a key research area in computer graphics and multimedia, yet most existing methods often struggle to balance generation quality with computational efficiency. In this paper, we present a novel approach that leverages an Audio Factorization Plane (Audio-Plane) based Gaussian Splatting for high-quality and real-time talking head generation. For modeling a dynamic talking head, 4D volume representation is needed. However, directly storing a dense 4D grid is impractical due to the high cost and lack of scalability for longer durations. We overcome this challenge with the proposed Audio-Plane, where the 4D volume representation is decomposed into audio-independent space planes and audio-dependent planes. This provides a compact and interpretable feature representation for talking head, facilitating more precise audio-aware spatial encoding and enhanced audio-driven lip dynamic modeling. To further improve speech dynamics, we develop a dynamic splatting method that helps the network more effectively focus on modeling the dynamics of the mouth region. Extensive experiments demonstrate that by integrating these innovations with the powerful Gaussian Splatting, our method is capable of synthesizing highly realistic talking videos in real time while ensuring precise audio-lip synchronization. Synthesized results are available in https://sstzal.github.io/Audio-Plane/.
- Abstract(参考訳): 頭合成はコンピュータグラフィックスやマルチメディアにおいて重要な研究領域となっているが、既存のほとんどの手法は生成品質と計算効率のバランスをとるのに苦労している。
本稿では,Audio-Plane(Audio-Plane)をベースとしたガウススプラッティングによる高品質・リアルタイム音声ヘッド生成手法を提案する。
動的音声ヘッドのモデリングには、4次元ボリューム表現が必要である。
しかし、高コストと長期にわたるスケーラビリティの欠如のため、密度の高い4Dグリッドを直接保存することは現実的ではない。
提案したAudio-Planeでは、4Dボリューム表現をオーディオ非依存の空間平面とオーディオ依存の平面に分解する。
これにより、より精密な音声認識空間符号化と音声駆動リップダイナミックモデリングを容易にする、音声ヘッドのためのコンパクトで解釈可能な特徴表現を提供する。
音声のダイナミックスをさらに改善するため,ネットワークがより効果的に口領域のダイナミックスをモデル化するのに役立つ動的スプレイティング法を開発した。
広汎な実験により,これらのイノベーションを強力なガウス・スプラッティングと組み合わせることで,高精度なオーディオ-リップ同期を確保しつつ,リアルタイムに高度にリアルな音声映像を合成できることが実証された。
合成結果はhttps://sstzal.github.io/Audio-Plane/で公開されている。
関連論文リスト
- 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis [27.97031664678664]
高忠実度音声ヘッドの合成能力により, 放射場に基づく手法が注目されている。
本稿では,頭部の静的な3次元ガウス場を構築し,音声と同期して変形するPointTalkという新しい3次元ガウス法を提案する。
提案手法は,従来の手法と比較して,音声ヘッド合成における高忠実度およびオーディオ-リップ同期に優れる。
論文 参考訳(メタデータ) (2024-12-11T16:15:14Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。