論文の概要: Splat-Portrait: Generalizing Talking Heads with Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2601.18633v1
- Date: Mon, 26 Jan 2026 16:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.923169
- Title: Splat-Portrait: Generalizing Talking Heads with Gaussian Splatting
- Title(参考訳): Splat-Portrait:ガウススプティングによるトーキングヘッドの一般化
- Authors: Tong Shi, Melonie de Almeida, Daniela Ivanova, Nicolas Pugeault, Paul Henderson,
- Abstract要約: Talking Head Generation(トーキングヘッドジェネレーション)は、音声と1枚のポートレート画像から自然に見える音声ビデオを合成することを目的としている。
従来の3Dトーキングヘッド生成法は、音声のアニメーション化に先立って、ワーピングに基づく顔の動き表現のようなドメイン固有性に依存していた。
Splat-Portraitは3次元頭部再構成と唇運動合成の課題に対処するガウス分割法である。
- 参考スコア(独自算出の注目度): 6.62155043692653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Talking Head Generation aims at synthesizing natural-looking talking videos from speech and a single portrait image. Previous 3D talking head generation methods have relied on domain-specific heuristics such as warping-based facial motion representation priors to animate talking motions, yet still produce inaccurate 3D avatar reconstructions, thus undermining the realism of generated animations. We introduce Splat-Portrait, a Gaussian-splatting-based method that addresses the challenges of 3D head reconstruction and lip motion synthesis. Our approach automatically learns to disentangle a single portrait image into a static 3D reconstruction represented as static Gaussian Splatting, and a predicted whole-image 2D background. It then generates natural lip motion conditioned on input audio, without any motion driven priors. Training is driven purely by 2D reconstruction and score-distillation losses, without 3D supervision nor landmarks. Experimental results demonstrate that Splat-Portrait exhibits superior performance on talking head generation and novel view synthesis, achieving better visual quality compared to previous works. Our project code and supplementary documents are public available at https://github.com/stonewalking/Splat-portrait.
- Abstract(参考訳): Talking Head Generation(トーキングヘッドジェネレーション)は、音声と1枚のポートレート画像から自然に見える音声ビデオを合成することを目的としている。
従来の3Dトーキングヘッド生成法は、アニメーションの動作に先立って、ワーピングに基づく顔の動き表現のようなドメイン固有のヒューリスティックに依存していたが、いまだに不正確な3Dアバター再構成を生成しており、生成したアニメーションのリアリズムを損なう。
Splat-Portraitは3次元頭部再構成と唇運動合成の課題に対処するガウス分割法である。
提案手法は,1枚の肖像画を静的なガウススプラッティングとして表現された静的な3次元再構成と,予測された全像2次元背景へと自動的に切り離すことを学習する。
そして、入力オーディオに条件付けされた自然な唇の動きを生成する。
トレーニングは、3Dの監督やランドマークなしで、2Dの再構築とスコア蒸留の損失によって純粋に推進される。
実験結果から,Splat-Portrait は音声ヘッド生成と新規ビュー合成において優れた性能を示し,従来の作品と比較して視覚的品質が向上した。
プロジェクトコードと補足資料はhttps://github.com/stonewalking/Splat-portrait.comで公開されています。
関連論文リスト
- GeoDiff4D: Geometry-Aware Diffusion for 4D Head Avatar Reconstruction [49.70452913749897]
本稿では,高忠実度頭部アバター再構成のための,幾何学的拡散を利用した高精度な幾何学的先行学習フレームワークを提案する。
ポーズフリーな表現は暗黙的な表現をキャプチャするのに対し、我々はポートレート画像と対応する表面正規表現を共同で合成する。
本手法は, 視覚的品質, 表現忠実度, クロスアイデンティティの一般化において, 最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-02-27T16:41:21Z) - From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors [49.37666175170832]
低解像度でアニマタブルな3Dヘッドアバターを実現するためのフレームワークであるSuperHeadを紹介する。
SuperHeadは高品質な幾何学とテクスチャを合成し、3Dと時間的整合性を確保している。
実験により、SuperHeadはダイナミックモーションの下で、きめ細かい顔の詳細を持つアバターを生成することが示された。
論文 参考訳(メタデータ) (2026-02-05T19:00:50Z) - VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image [27.76629170122787]
VASA-3Dはオーディオ駆動の単発3Dヘッドアバタージェネレータである。
この研究は、実際の人間の顔に存在する微妙な表情の詳細を捉え、単一の肖像画から複雑な3D頭部アバターを再構築する、という2つの大きな課題に取り組む。
論文 参考訳(メタデータ) (2025-12-16T18:44:00Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - SadTalker: Learning Realistic 3D Motion Coefficients for Stylized
Audio-Driven Single Image Talking Face Animation [33.651156455111916]
本稿では,3DMMの3次元動き係数(頭部ポーズ,表情)を音声から生成するSadTalkerを提案する。
正確には、3Dレンダリングされた顔の両係数を蒸留することにより、音声から正確な表情を学習するExpNetを提案する。
論文 参考訳(メタデータ) (2022-11-22T11:35:07Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。