論文の概要: Monocular and Generalizable Gaussian Talking Head Animation
- arxiv url: http://arxiv.org/abs/2504.00665v1
- Date: Tue, 01 Apr 2025 11:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:55.729911
- Title: Monocular and Generalizable Gaussian Talking Head Animation
- Title(参考訳): 単眼で一般化可能なガウスの頭部アニメーション
- Authors: Shengjie Gong, Haojie Li, Jiapeng Tang, Dongming Hu, Shuangping Huang, Hao Chen, Tianshui Chen, Zhuoman Liu,
- Abstract要約: 単分子および一般化可能なガウス音声頭部アニメーション(MGGTalk)を紹介する。
MGGTalkはモノラルなデータセットを必要とし、パーソナライズされた再トレーニングをすることなく、未確認のIDに一般化する。
我々は,MGGTalkが従来の最先端手法を超越し,様々な指標において優れた性能を発揮することを実証する。
- 参考スコア(独自算出の注目度): 25.74590381431105
- License:
- Abstract: In this work, we introduce Monocular and Generalizable Gaussian Talking Head Animation (MGGTalk), which requires monocular datasets and generalizes to unseen identities without personalized re-training. Compared with previous 3D Gaussian Splatting (3DGS) methods that requires elusive multi-view datasets or tedious personalized learning/inference, MGGtalk enables more practical and broader applications. However, in the absence of multi-view and personalized training data, the incompleteness of geometric and appearance information poses a significant challenge. To address these challenges, MGGTalk explores depth information to enhance geometric and facial symmetry characteristics to supplement both geometric and appearance features. Initially, based on the pixel-wise geometric information obtained from depth estimation, we incorporate symmetry operations and point cloud filtering techniques to ensure a complete and precise position parameter for 3DGS. Subsequently, we adopt a two-stage strategy with symmetric priors for predicting the remaining 3DGS parameters. We begin by predicting Gaussian parameters for the visible facial regions of the source image. These parameters are subsequently utilized to improve the prediction of Gaussian parameters for the non-visible regions. Extensive experiments demonstrate that MGGTalk surpasses previous state-of-the-art methods, achieving superior performance across various metrics.
- Abstract(参考訳): 本研究では,モノクラー・データセットを必要とし,パーソナライズされた再学習を行わずに識別不能な個人に一般化する,モノクラー・一般化可能なガウス的トーキングヘッドアニメーション(MGGTalk)を紹介する。
従来の3D Gaussian Splatting (3DGS)メソッドと比較して、多視点データセットや面倒なパーソナライズされた学習/推論を必要とするため、MGGtalkはより実用的で幅広いアプリケーションを可能にする。
しかし、多視点・個人化されたトレーニングデータがないため、幾何学的・外見的情報の不完全性は重大な課題となる。
これらの課題に対処するため、MGGTalkは、幾何学的特徴と外観的特徴の両方を補うために、幾何学的特徴と顔的対称性の特性を強化するために深度情報を探究する。
当初,深度推定から得られる画素単位の幾何学的情報に基づいて,3DGSの完全かつ正確な位置パラメータを確保するために,対称性演算と点雲フィルタリング手法を取り入れた。
続いて,残りの3DGSパラメータを予測するために,対称先行の2段階戦略を採用する。
まず、ソース画像の視覚的な顔領域に対するガウスパラメータの予測から始める。
これらのパラメータはその後、非可視領域のガウスパラメータの予測を改善するために利用される。
MGGTalkは従来の最先端の手法を超越し、様々な指標で優れたパフォーマンスを実現している。
関連論文リスト
- GeomGS: LiDAR-Guided Geometry-Aware Gaussian Splatting for Robot Localization [20.26969580492428]
我々はGeomGS(Geometry-Aware Gaussian Splatting)と呼ばれる新しい3DGS法を提案する。
我々のGeomGSは、幾何および局所化性能をいくつかのベンチマークで示すとともに、測光性能も改善している。
論文 参考訳(メタデータ) (2025-01-23T06:43:38Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - GigaGS: Scaling up Planar-Based 3D Gaussians for Large Scene Surface Reconstruction [71.08607897266045]
3D Gaussian Splatting (3DGS) は新規なビュー合成において有望な性能を示した。
本研究は,大規模な景観表面再構築の課題に取り組むための最初の試みである。
3DGSを用いた大規模シーンのための高品質な表面再構成手法であるGigaGSを提案する。
論文 参考訳(メタデータ) (2024-09-10T17:51:39Z) - 3D Gaussian Splatting for Large-scale Surface Reconstruction from Aerial Images [6.076999957937232]
AGS(Aerial Gaussian Splatting)という,空中多視点ステレオ(MVS)画像を用いた3DGSによる大規模表面再構成手法を提案する。
まず,大規模空中画像に適したデータチャンキング手法を提案する。
次に,レイ・ガウス断面積法を3DGSに統合し,深度情報と正規情報を得る。
論文 参考訳(メタデータ) (2024-08-31T08:17:24Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - GS2Mesh: Surface Reconstruction from Gaussian Splatting via Novel Stereo Views [9.175560202201819]
3Dガウススプラッティング(3DGS)はシーンを正確に表現するための効率的なアプローチとして登場した。
本稿では,ノイズの多い3DGS表現とスムーズな3Dメッシュ表現とのギャップを埋めるための新しい手法を提案する。
私たちは、オリジナルのトレーニングポーズに対応するステレオアライメントされたイメージのペアをレンダリングし、ペアをステレオモデルに入力して深度プロファイルを取得し、最後にすべてのプロファイルを融合して単一のメッシュを得る。
論文 参考訳(メタデータ) (2024-04-02T10:13:18Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。