Fugu-MT 論文翻訳(概要): SDTalk: Structured Facial Priors and Dual-Branch Motion Fields for Generalizable Gaussian Talking Head Synthesis

論文の概要: SDTalk: Structured Facial Priors and Dual-Branch Motion Fields for Generalizable Gaussian Talking Head Synthesis

arxiv url: http://arxiv.org/abs/2605.09956v1
Date: Mon, 11 May 2026 04:05:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.509929
Title: SDTalk: Structured Facial Priors and Dual-Branch Motion Fields for Generalizable Gaussian Talking Head Synthesis
Title（参考訳）: SDTalk: 一般化可能なガウス発声頭部合成のための2分岐運動場と顔の構造化
Authors: Peng Jia, Zhen Xiao, Jia Li, Xueliang Liu, Zhenzhen Hu, Lingyun Yu,
Abstract要約: SDTalkは、パーソナライズされたトレーニングや微調整をすることなく、未確認のアイデンティティに一般化するワンショットの3Dガウススティングフレームワークである。実験により、SDTalkは視覚的品質と推論効率の両方において既存の手法を超越していることが示された。
参考スコア（独自算出の注目度）: 23.168057520390317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-quality, real-time talking head synthesis remains a fundamental challenge in computer vision. Existing reconstruction- and rendering-based methods typically rely on identity-specific models, limiting cross-identity generalization. To address this issue, we propose SDTalk, a one-shot 3D Gaussian Splatting (3DGS)-based framework that generalizes to unseen identities without personalized training or fine-tuning. Our framework comprises two modules with a two-stage training strategy. In the first stage, we incorporate structured facial priors into the reconstruction module and separately predict 3DGS parameters for visible and occluded regions, enabling complete head reconstruction from a single image. In the second stage, we introduce a dual-branch motion field to model coarse and fine facial dynamics, improving detail fidelity and lip synchronization. Experiments demonstrate that SDTalk surpasses existing methods in both visual quality and inference efficiency.
Abstract（参考訳）: 高品質でリアルタイムな対話ヘッド合成は、コンピュータビジョンにおける根本的な課題である。既存の再構成とレンダリングに基づく手法は、通常、アイデンティティ固有のモデルに依存し、クロスアイデンティティの一般化を制限する。この問題に対処するため,SDTalkを提案する。SDTalkは3Dガウス・スプラッティング(3DGS)ベースのフレームワークで,パーソナライズされたトレーニングや微調整をすることなく,未確認のアイデンティティに一般化する。私たちのフレームワークは、2段階のトレーニング戦略を備えた2つのモジュールで構成されています。第1段階では、再構成モジュールに構造化顔前駆体を組み込んで、3DGSパラメータを視覚領域と閉鎖領域に別々に予測し、単一の画像から完全な頭部再構成を可能にする。第2段階では、粗さと微妙な顔のダイナミクスをモデル化し、ディテールの忠実度と唇の同期を改善したデュアルブランチ運動場を導入する。実験により、SDTalkは視覚的品質と推論効率の両方において既存の手法を超越していることが示された。

関連論文リスト

D^3-Talker: Dual-Branch Decoupled Deformation Fields for Few-Shot 3D Talking Head Synthesis [28.923949756720425]
3Dトーキングヘッド合成における重要な課題は、スクラッチから新しいモデルをトレーニングするために、長期にわたるトーキングヘッドビデオに依存することである。近年,事前学習モデルを用いて音声から一般特徴を抽出し,この問題に対処する手法が提案されている。本稿ではD3-Talkerを提案する。これは静的な3次元ガウス属性場を構築し,音声信号と顔信号を用いた新しいアプローチである。
論文参考訳（メタデータ） (2025-08-20T06:12:33Z)
GGTalker: Talking Head Systhesis with Generalizable Gaussian Priors and Identity-Specific Adaptation [20.17978153568009]
GGTalkerは、一般化可能な先行とアイデンティティ固有の適応を組み合わせることで、対話ヘッドを合成する。 GGTalkerは、レンダリング品質、3D一貫性、リップシンク精度、トレーニング効率において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-26T17:37:18Z)
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文参考訳（メタデータ） (2024-06-26T12:09:59Z)
S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T11:40:49Z)
GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文参考訳（メタデータ） (2023-04-11T09:47:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。