論文の概要: EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation
- arxiv url: http://arxiv.org/abs/2603.07604v1
- Date: Sun, 08 Mar 2026 12:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.904567
- Title: EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation
- Title(参考訳): EmbedTalk: 埋め込み駆動ガウス変形を用いたトリプレーンフリートーキングヘッド合成
- Authors: Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg,
- Abstract要約: リアルタイム音声ヘッド合成は、変形可能な3次元ガウススプラッティング(3DGS)に依存している。
近年の研究では、4次元シーン再構成における時間的変形を駆動する学習型埋め込みの優位性を示している。
EmbedTalkは、レンダリング品質、唇の同期、動きの一貫性において、既存の3DGSベースの手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 5.207307163958805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time talking head synthesis increasingly relies on deformable 3D Gaussian Splatting (3DGS) due to its low latency. Tri-planes are the standard choice for encoding Gaussians prior to deformation, since they provide a continuous domain with explicit spatial relationships. However, tri-plane representations are limited by grid resolution and approximation errors introduced by projecting 3D volumetric fields onto 2D subspaces. Recent work has shown the superiority of learnt embeddings for driving temporal deformations in 4D scene reconstruction. We introduce $\textbf{EmbedTalk}$, which shows how such embeddings can be leveraged for modelling speech deformations in talking head synthesis. Through comprehensive experiments, we show that EmbedTalk outperforms existing 3DGS-based methods in rendering quality, lip synchronisation, and motion consistency, while remaining competitive with state-of-the-art generative models. Moreover, replacing the tri-plane encoding with learnt embeddings enables significantly more compact models that achieve over 60 FPS on a mobile GPU (RTX 2060 6 GB). Our code will be placed in the public domain on acceptance.
- Abstract(参考訳): リアルタイム音声ヘッド合成は、低レイテンシのため、変形可能な3Dガウススプラッティング(3DGS)に依存している。
三面体は変形に先立ってガウスを符号化する標準的な選択肢である。
しかし、3次元体積場を2次元部分空間に投影することによって生じる格子分解と近似誤差によって三面表現が制限される。
近年の研究では、4次元シーン再構成における時間的変形を駆動する学習型埋め込みの優位性を示している。
音声頭部合成における音声変形のモデル化において,このような埋め込みをいかに活用できるかを示す。
総合的な実験を通して,EmbedTalkは,最先端の生成モデルと競合しながら,品質,唇の同期,動きの一貫性をレンダリングする既存の3DGS法よりも優れていることを示す。
さらに、三面体エンコーディングを学習した埋め込みに置き換えることで、モバイルGPU(RTX 2060 6 GB)上で60FPSを超える、はるかにコンパクトなモデルを実現することができる。
私たちのコードは受理後パブリックドメインに置かれます。
関連論文リスト
- Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - DirectTriGS: Triplane-based Gaussian Splatting Field Representation for 3D Generation [37.09199962653554]
ガウススプラッティング(GS)を用いた3次元オブジェクト生成のための新しいフレームワークであるDirectTriGSを提案する。
提案した生成フレームワークは,テキスト・ツー・3Dタスクにおいて高品質な3Dオブジェクト形状とレンダリング結果を生成することができる。
論文 参考訳(メタデータ) (2025-03-10T04:05:38Z) - 3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes [87.01284850604495]
多視点画像から幾何学的に有意な放射場をモデル化するためのプリミティブとして3次元滑らかな凸を利用した3次元凸法(3DCS)を提案する。
3DCSは、MipNeizer, Tanks and Temples, Deep Blendingなどのベンチマークで、3DGSよりも優れたパフォーマンスを実現している。
本結果は,高品質なシーン再構築のための新しい標準となる3Dコンベクシングの可能性を強調した。
論文 参考訳(メタデータ) (2024-11-22T14:31:39Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.56357905500512]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D
Shape Synthesis [90.26556260531707]
DMTetは粗いボクセルのような単純なユーザーガイドを用いて高解像度の3次元形状を合成できる条件付き生成モデルである。
メッシュなどの明示的な表現を直接生成する深部3次元生成モデルとは異なり、我々のモデルは任意の位相で形状を合成することができる。
論文 参考訳(メタデータ) (2021-11-08T05:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。