論文の概要: ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors
- arxiv url: http://arxiv.org/abs/2602.05572v1
- Date: Thu, 05 Feb 2026 11:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.911796
- Title: ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors
- Title(参考訳): ShapeGaussian:視覚による単眼ビデオにおける高忠実な4D人間の再構築
- Authors: Zhenxiao Liang, Ning Zhang, Youbao Tang, Ruei-Sung Lin, Qixing Huang, Peng Chang, Jing Xiao,
- Abstract要約: ShapeGaussianは、カジュアルなモノクロビデオから4Dの人間を再構築するための、高忠実でテンプレートのない方法だ。
提案手法は,高忠実度かつ堅牢なシーン再構築を実現するために,テンプレートフリービジョンを前もって統合する。
- 参考スコア(独自算出の注目度): 41.01643771040251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ShapeGaussian, a high-fidelity, template-free method for 4D human reconstruction from casual monocular videos. Generic reconstruction methods lacking robust vision priors, such as 4DGS, struggle to capture high-deformation human motion without multi-view cues. While template-based approaches, primarily relying on SMPL, such as HUGS, can produce photorealistic results, they are highly susceptible to errors in human pose estimation, often leading to unrealistic artifacts. In contrast, ShapeGaussian effectively integrates template-free vision priors to achieve both high-fidelity and robust scene reconstructions. Our method follows a two-step pipeline: first, we learn a coarse, deformable geometry using pretrained models that estimate data-driven priors, providing a foundation for reconstruction. Then, we refine this geometry using a neural deformation model to capture fine-grained dynamic details. By leveraging 2D vision priors, we mitigate artifacts from erroneous pose estimation in template-based methods and employ multiple reference frames to resolve the invisibility issue of 2D keypoints in a template-free manner. Extensive experiments demonstrate that ShapeGaussian surpasses template-based methods in reconstruction accuracy, achieving superior visual quality and robustness across diverse human motions in casual monocular videos.
- Abstract(参考訳): そこで我々は,カジュアルモノクラービデオから4次元の人体再構成を行う,高忠実でテンプレートのないShapeGaussianを紹介した。
4DGSのような頑健な視力に欠ける遺伝子再構成手法は、多視点の手がかりを伴わずに、高度に変形した人間の動きを捉えるのに苦労する。
テンプレートベースのアプローチは、主にHUGSのようなSMPLに依存しているため、フォトリアリスティックな結果が得られるが、人間のポーズ推定におけるエラーに非常に敏感であり、しばしば非現実的な成果物に繋がる。
対照的に、ShapeGaussianはテンプレートのないビジョンを効果的に統合し、高忠実性と堅牢なシーン再構築を実現する。
まず、事前学習モデルを用いて粗い変形可能な幾何を学習し、データ駆動の事前推定を行い、再構築の基礎となる。
そこで我々は,この形状をニューラル変形モデルを用いて改良し,微細なダイナミックディテールを捉える。
テンプレートベースの手法では,2次元の視覚的先行情報を活用することにより,誤ポーズ推定からアーティファクトを軽減し,複数の参照フレームを用いて2次元キーポイントの可視性問題をテンプレートフリーで解決する。
大規模な実験により、ShapeGaussianはテンプレートベースの再現精度を超越し、カジュアルなモノクロビデオにおいて、多様な人間の動きに対して優れた視覚的品質と堅牢性を達成している。
関連論文リスト
- FMGS-Avatar: Mesh-Guided 2D Gaussian Splatting with Foundation Model Priors for 3D Monocular Avatar Reconstruction [18.570290675633732]
2Dプリミティブをテンプレートメッシュ面に直接アタッチして位置、回転、動きを制限したメッシュガイド2Dガウススプラッティングを導入する。
Sapiensのような大規模データセットでトレーニングされた基礎モデルを活用して、モノクロビデオからの限られた視覚的手がかりを補完します。
実験により, 従来の手法に比べて再現性は優れており, 幾何的精度と外観忠実度は顕著に向上した。
論文 参考訳(メタデータ) (2025-09-18T08:41:41Z) - Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Canonical Pose Reconstruction from Single Depth Image for 3D Non-rigid Pose Recovery on Limited Datasets [55.84702107871358]
2Dインプットからの3D再構成、特に人間のような非剛体オブジェクトは、ユニークな課題を提示する。
従来の手法は、変形空間全体をカバーするために広範囲なトレーニングデータを必要とする非剛体形状に苦しむことが多い。
本研究では,変形可能な形状の単一視点深度画像を標準形に変換する正準ポーズ再構成モデルを提案する。
論文 参考訳(メタデータ) (2025-05-23T14:58:34Z) - MVD-HuGaS: Human Gaussians from a Single Image via 3D Human Multi-view Diffusion Prior [35.704591162502375]
EmphMVD-HuGaSは,複数視点の人体拡散モデルを用いて,単一の画像から自由視点の3Dレンダリングを可能にする。
T Human2.0と2K2Kデータセットの実験により、提案されたMVD-HuGaSは、単一ビューの3Dレンダリングで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-03-11T09:37:15Z) - AniGaussian: Animatable Gaussian Avatar with Pose-guided Deformation [51.61117351997808]
SMPLポーズガイダンスを用いて動的ガウスアバターを拘束する革新的ポーズ誘導変形戦略を導入する。
我々は、ガウスモデルの動的変換能力を高めるために、以前の研究から厳密な事前を取り入れた。
既存の手法との比較により、AniGaussianは定性的結果と定量的指標の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-24T06:53:37Z) - Deformable Model-Driven Neural Rendering for High-Fidelity 3D
Reconstruction of Human Heads Under Low-View Settings [20.07788905506271]
低視点で3Dの頭部を再構築することは技術的な課題を呈する。
幾何学的分解を提案し、2段階の粗大なトレーニング戦略を採用する。
提案手法は,低視野環境下での再現精度と新規ビュー合成の観点から,既存のニューラルレンダリング手法より優れる。
論文 参考訳(メタデータ) (2023-03-24T08:32:00Z) - 3D Magic Mirror: Clothing Reconstruction from a Single Image via a
Causal Perspective [96.65476492200648]
本研究は, 自己監督型3D衣料の再構築手法について検討することを目的とする。
1枚の2D画像から人間の衣服の形状やテクスチャを復元する。
論文 参考訳(メタデータ) (2022-04-27T17:46:55Z) - H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。
単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。
本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文 参考訳(メタデータ) (2022-03-02T17:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。