論文の概要: FMGS-Avatar: Mesh-Guided 2D Gaussian Splatting with Foundation Model Priors for 3D Monocular Avatar Reconstruction
- arxiv url: http://arxiv.org/abs/2509.14739v1
- Date: Thu, 18 Sep 2025 08:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.125386
- Title: FMGS-Avatar: Mesh-Guided 2D Gaussian Splatting with Foundation Model Priors for 3D Monocular Avatar Reconstruction
- Title(参考訳): FMGS-Avatar : 3次元モノクロアバター再構成のための基礎モデルを用いたメッシュ誘導2次元ガウススプラッティング
- Authors: Jinlong Fan, Bingyu Hu, Xingguang Li, Yuxiang Yang, Jing Zhang,
- Abstract要約: 2Dプリミティブをテンプレートメッシュ面に直接アタッチして位置、回転、動きを制限したメッシュガイド2Dガウススプラッティングを導入する。
Sapiensのような大規模データセットでトレーニングされた基礎モデルを活用して、モノクロビデオからの限られた視覚的手がかりを補完します。
実験により, 従来の手法に比べて再現性は優れており, 幾何的精度と外観忠実度は顕著に向上した。
- 参考スコア(独自算出の注目度): 18.570290675633732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing high-fidelity animatable human avatars from monocular videos remains challenging due to insufficient geometric information in single-view observations. While recent 3D Gaussian Splatting methods have shown promise, they struggle with surface detail preservation due to the free-form nature of 3D Gaussian primitives. To address both the representation limitations and information scarcity, we propose a novel method, \textbf{FMGS-Avatar}, that integrates two key innovations. First, we introduce Mesh-Guided 2D Gaussian Splatting, where 2D Gaussian primitives are attached directly to template mesh faces with constrained position, rotation, and movement, enabling superior surface alignment and geometric detail preservation. Second, we leverage foundation models trained on large-scale datasets, such as Sapiens, to complement the limited visual cues from monocular videos. However, when distilling multi-modal prior knowledge from foundation models, conflicting optimization objectives can emerge as different modalities exhibit distinct parameter sensitivities. We address this through a coordinated training strategy with selective gradient isolation, enabling each loss component to optimize its relevant parameters without interference. Through this combination of enhanced representation and coordinated information distillation, our approach significantly advances 3D monocular human avatar reconstruction. Experimental evaluation demonstrates superior reconstruction quality compared to existing methods, with notable gains in geometric accuracy and appearance fidelity while providing rich semantic information. Additionally, the distilled prior knowledge within a shared canonical space naturally enables spatially and temporally consistent rendering under novel views and poses.
- Abstract(参考訳): 高忠実なアニマタブルな人間のアバターを単眼ビデオから再構成することは、単眼で観測するに足りる幾何学的情報が不足しているため、いまだに困難である。
最近の3Dガウススティング法は有望であるが、3Dガウス原始体の自由形式の性質のため表面の細部保存に苦慮している。
表現の限界と情報の不足に対処するため,2つの重要なイノベーションを統合する新しい手法である「textbf{FMGS-Avatar}」を提案する。
まず,2次元ガウス原始体を直接テンプレートメッシュ面に固定し,位置,回転,移動を制限し,優れた表面アライメントと幾何的ディテールの保存を可能にするメッシュガイド2次元ガウス分割法を提案する。
第二に、Sapiensのような大規模データセットでトレーニングされた基礎モデルを活用して、モノクロビデオからの限られた視覚的手がかりを補完します。
しかし、基礎モデルからマルチモーダルな事前知識を蒸留する場合、異なるモダリティが異なるパラメータ感受性を示すため、矛盾する最適化目的が現れる可能性がある。
本手法では、各損失成分が干渉することなく、関連するパラメータを最適化できるように、選択的な勾配分離による協調的なトレーニング戦略によってこの問題に対処する。
この拡張表現と協調情報蒸留の組み合わせにより,本手法は3次元単分子アバターの再構築を著しく進める。
実験により, 従来の手法に比べて再現性は優れており, 高度な意味情報を提供しながら, 幾何的精度と外観忠実度が顕著に向上した。
さらに、共有正準空間内の蒸留前の知識は、自然に、新しいビューやポーズの下で空間的かつ時間的に一貫したレンダリングを可能にする。
関連論文リスト
- A Controllable 3D Deepfake Generation Framework with Gaussian Splatting [6.969908558294805]
本稿では,3次元ガウススプラッティングに基づく新しい3次元ディープフェイク生成フレームワークを提案する。
完全に制御可能な3D空間において、現実的でアイデンティティを保った顔スワッピングと再現を可能にする。
提案手法は3次元モデリングとディープフェイク合成のギャップを埋め、シーン認識、制御可能、没入型視覚的偽造の新しい方向を可能にする。
論文 参考訳(メタデータ) (2025-09-15T06:34:17Z) - Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction [84.07233691641193]
高品質な再構成のための神経信号距離場(SDF)とプリミティブを結合する新しい手法であるMonoGSDFを紹介する。
任意のスケールのシーンを扱うために,ロバストな一般化のためのスケーリング戦略を提案する。
実世界のデータセットの実験は、効率を保ちながら、以前の方法よりも優れています。
論文 参考訳(メタデータ) (2024-11-25T20:07:07Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation [10.250715657201363]
本稿では,メッシュ表現と幾何スキン技術を組み合わせた新しいフレームワークDreamMesh4Dを紹介し,モノクロビデオから高品質な4Dオブジェクトを生成する。
我々の手法は現代のグラフィックパイプラインと互換性があり、3Dゲームや映画産業におけるその可能性を示している。
論文 参考訳(メタデータ) (2024-10-09T10:41:08Z) - Generalizable Human Gaussians for Sparse View Synthesis [48.47812125126829]
そこで本研究では,光写実的かつ正確な視線レンダリングを可能にする,一般化可能なヒトガウシアンを学習するための新しい手法を提案する。
このアプローチの重要な革新は、3次元ガウスパラメータの学習を、人間のテンプレートの2次元UV空間上で定義された回帰プロセスに再構成することである。
提案手法は,データ内一般化とクロスデータセット一般化設定の両方において,最近の手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-17T17:56:30Z) - Hybrid Explicit Representation for Ultra-Realistic Head Avatars [55.829497543262214]
我々は,超現実的な頭部アバターを作成し,それをリアルタイムにレンダリングする新しい手法を提案する。
UVマップされた3Dメッシュは滑らかな表面のシャープでリッチなテクスチャを捉えるのに使われ、3Dガウス格子は複雑な幾何学構造を表現するために用いられる。
モデル化された結果が最先端のアプローチを上回る実験を行ないました。
論文 参考訳(メタデータ) (2024-03-18T04:01:26Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。