論文の概要: PoseGaussian: Pose-Driven Novel View Synthesis for Robust 3D Human Reconstruction
- arxiv url: http://arxiv.org/abs/2602.05190v1
- Date: Thu, 05 Feb 2026 01:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.700912
- Title: PoseGaussian: Pose-Driven Novel View Synthesis for Robust 3D Human Reconstruction
- Title(参考訳): PoseGaussian:ロバスト3次元再構成のためのPose-Driven Novel View Synthesis
- Authors: Ju Shen, Chen Chen, Tam V. Nguyen, Vijayan K. Asari,
- Abstract要約: PoseGaussianは、高忠実なヒューマン・ノベル・ビュー・シンセサイザーのためのポーズ誘導型ガウス・スプレイティング・フレームワークである。
具体的には、人間の動的なシーンに固有の課題に対処するために設計されており、例えば、関節運動や重度の自己閉塞などである。
ZJU-MoCap,THuman2.0,および社内データセットに対する我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 13.7448608384464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose PoseGaussian, a pose-guided Gaussian Splatting framework for high-fidelity human novel view synthesis. Human body pose serves a dual purpose in our design: as a structural prior, it is fused with a color encoder to refine depth estimation; as a temporal cue, it is processed by a dedicated pose encoder to enhance temporal consistency across frames. These components are integrated into a fully differentiable, end-to-end trainable pipeline. Unlike prior works that use pose only as a condition or for warping, PoseGaussian embeds pose signals into both geometric and temporal stages to improve robustness and generalization. It is specifically designed to address challenges inherent in dynamic human scenes, such as articulated motion and severe self-occlusion. Notably, our framework achieves real-time rendering at 100 FPS, maintaining the efficiency of standard Gaussian Splatting pipelines. We validate our approach on ZJU-MoCap, THuman2.0, and in-house datasets, demonstrating state-of-the-art performance in perceptual quality and structural accuracy (PSNR 30.86, SSIM 0.979, LPIPS 0.028).
- Abstract(参考訳): 提案するPoseGaussianはポーズ誘導型ガウシアン・スプレイティング・フレームワークで,高忠実なヒューマン・ノベル・ビュー・シンセサイザーのためのフレームワークである。
人体ポーズは、構造的先行として、深度推定を洗練させるために色エンコーダと融合し、時間的キューとして、フレーム間の時間的一貫性を高めるために専用のポーズエンコーダによって処理される。
これらのコンポーネントは、完全に微分可能でエンドツーエンドのトレーニング可能なパイプラインに統合される。
ポーズを条件やワープにのみ使用する以前の作品とは異なり、PoseGaussian は、ロバスト性や一般化を改善するために、幾何学的および時間的段階の両方にシグナルを埋め込む。
具体的には、人間の動的なシーンに固有の課題に対処するために設計されており、例えば、関節運動や重度の自己閉塞などである。
特に,本フレームワークは100FPSのリアルタイムレンダリングを実現し,標準ガウススプラッティングパイプラインの効率を維持している。
我々はZJU-MoCap, THuman2.0, および社内データセットに対するアプローチを検証し, 知覚的品質と構造的精度(PSNR 30.86, SSIM 0.979, LPIPS 0.028)における最先端性能を実証した。
関連論文リスト
- JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction [18.636227266388218]
JOintGSは、カメラ外在物、人間のポーズ、および3Dガウス表現を協調的に最適化する統合フレームワークである。
NeuManとEMDBデータセットの実験は、JOintGSが優れた再構築品質を達成することを示した。
論文 参考訳(メタデータ) (2026-02-04T08:33:51Z) - From Frames to Sequences: Temporally Consistent Human-Centric Dense Prediction [22.291273919939957]
我々は、人間のフレームと、画素精度の深度、正常度、マスクを用いた動き整列を生成するスケーラブルな合成データパイプラインを開発した。
我々は、CSE埋め込みを介して、明示的な幾何学的人体を注入する統合されたViTベースの密度予測器を訓練する。
静的プレトレーニングと動的シーケンス監視を組み合わせた2段階のトレーニング戦略により、まず、ロバストな空間表現を取得し、その後、動きに沿ったシーケンス間で時間的一貫性を洗練できる。
論文 参考訳(メタデータ) (2026-02-02T05:28:58Z) - iGaussian: Real-Time Camera Pose Estimation via Feed-Forward 3D Gaussian Splatting Inversion [62.09575122593993]
iGaussianは2段階のフィードフォワードフレームワークで、直接3Dガウス変換によるリアルタイムカメラポーズ推定を実現する。
NeRF Synthetic, Mip-NeRF 360, T&T+DB データセットの実験結果から, 従来の手法に比べて大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-11-18T05:22:22Z) - End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer [7.19764062839405]
ビデオにおける多人数2Dポーズ推定のためのエンドツーエンドフレームワークを提案する。
鍵となる課題は、複雑な時間軌道と重なり合う時間軌道の下で、個人をフレーム全体で関連付けることである。
本稿では,フレーム内関係と時間デコーダのポーズをモデル化するための空間エンコーダを備えた新しいPose-Aware VideoErEr Network(PAVE-Net)を提案する。
論文 参考訳(メタデータ) (2025-11-17T10:19:35Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。