論文の概要: Splat-Portrait: Generalizing Talking Heads with Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2601.18633v1
- Date: Mon, 26 Jan 2026 16:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.923169
- Title: Splat-Portrait: Generalizing Talking Heads with Gaussian Splatting
- Title(参考訳): Splat-Portrait:ガウススプティングによるトーキングヘッドの一般化
- Authors: Tong Shi, Melonie de Almeida, Daniela Ivanova, Nicolas Pugeault, Paul Henderson,
- Abstract要約: Talking Head Generation(トーキングヘッドジェネレーション)は、音声と1枚のポートレート画像から自然に見える音声ビデオを合成することを目的としている。
従来の3Dトーキングヘッド生成法は、音声のアニメーション化に先立って、ワーピングに基づく顔の動き表現のようなドメイン固有性に依存していた。
Splat-Portraitは3次元頭部再構成と唇運動合成の課題に対処するガウス分割法である。
- 参考スコア(独自算出の注目度): 6.62155043692653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Talking Head Generation aims at synthesizing natural-looking talking videos from speech and a single portrait image. Previous 3D talking head generation methods have relied on domain-specific heuristics such as warping-based facial motion representation priors to animate talking motions, yet still produce inaccurate 3D avatar reconstructions, thus undermining the realism of generated animations. We introduce Splat-Portrait, a Gaussian-splatting-based method that addresses the challenges of 3D head reconstruction and lip motion synthesis. Our approach automatically learns to disentangle a single portrait image into a static 3D reconstruction represented as static Gaussian Splatting, and a predicted whole-image 2D background. It then generates natural lip motion conditioned on input audio, without any motion driven priors. Training is driven purely by 2D reconstruction and score-distillation losses, without 3D supervision nor landmarks. Experimental results demonstrate that Splat-Portrait exhibits superior performance on talking head generation and novel view synthesis, achieving better visual quality compared to previous works. Our project code and supplementary documents are public available at https://github.com/stonewalking/Splat-portrait.
- Abstract(参考訳): Talking Head Generation(トーキングヘッドジェネレーション)は、音声と1枚のポートレート画像から自然に見える音声ビデオを合成することを目的としている。
従来の3Dトーキングヘッド生成法は、アニメーションの動作に先立って、ワーピングに基づく顔の動き表現のようなドメイン固有のヒューリスティックに依存していたが、いまだに不正確な3Dアバター再構成を生成しており、生成したアニメーションのリアリズムを損なう。
Splat-Portraitは3次元頭部再構成と唇運動合成の課題に対処するガウス分割法である。
提案手法は,1枚の肖像画を静的なガウススプラッティングとして表現された静的な3次元再構成と,予測された全像2次元背景へと自動的に切り離すことを学習する。
そして、入力オーディオに条件付けされた自然な唇の動きを生成する。
トレーニングは、3Dの監督やランドマークなしで、2Dの再構築とスコア蒸留の損失によって純粋に推進される。
実験結果から,Splat-Portrait は音声ヘッド生成と新規ビュー合成において優れた性能を示し,従来の作品と比較して視覚的品質が向上した。
プロジェクトコードと補足資料はhttps://github.com/stonewalking/Splat-portrait.comで公開されています。
関連論文リスト
- VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image [27.76629170122787]
VASA-3Dはオーディオ駆動の単発3Dヘッドアバタージェネレータである。
この研究は、実際の人間の顔に存在する微妙な表情の詳細を捉え、単一の肖像画から複雑な3D頭部アバターを再構築する、という2つの大きな課題に取り組む。
論文 参考訳(メタデータ) (2025-12-16T18:44:00Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - SadTalker: Learning Realistic 3D Motion Coefficients for Stylized
Audio-Driven Single Image Talking Face Animation [33.651156455111916]
本稿では,3DMMの3次元動き係数(頭部ポーズ,表情)を音声から生成するSadTalkerを提案する。
正確には、3Dレンダリングされた顔の両係数を蒸留することにより、音声から正確な表情を学習するExpNetを提案する。
論文 参考訳(メタデータ) (2022-11-22T11:35:07Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。