論文の概要: ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos
- arxiv url: http://arxiv.org/abs/2504.13167v1
- Date: Thu, 17 Apr 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:32.288898
- Title: ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos
- Title(参考訳): ODHSR:モノクロ映像から人間とシーンを3Dで再現
- Authors: Zetong Zhang, Manuel kaufmann, Lixin Xue, Jie Song, Martin R. Oswald,
- Abstract要約: 最近のニューラルレンダリングの進歩により、全体的人間シーンの再構築が可能になったが、事前に校正されたカメラと人間のポーズが必要である。
本稿では,オンライン形式でカメラトラッキング,ポーズ推定,ヒューマンシーン再構築を同時に行う新しい統合フレームワークを提案する。
具体的には,人間の変形モジュールを設計し,細部を再構築し,分布外への一般化性を高める。
- 参考スコア(独自算出の注目度): 18.73641648585445
- License:
- Abstract: Creating a photorealistic scene and human reconstruction from a single monocular in-the-wild video figures prominently in the perception of a human-centric 3D world. Recent neural rendering advances have enabled holistic human-scene reconstruction but require pre-calibrated camera and human poses, and days of training time. In this work, we introduce a novel unified framework that simultaneously performs camera tracking, human pose estimation and human-scene reconstruction in an online fashion. 3D Gaussian Splatting is utilized to learn Gaussian primitives for humans and scenes efficiently, and reconstruction-based camera tracking and human pose estimation modules are designed to enable holistic understanding and effective disentanglement of pose and appearance. Specifically, we design a human deformation module to reconstruct the details and enhance generalizability to out-of-distribution poses faithfully. Aiming to learn the spatial correlation between human and scene accurately, we introduce occlusion-aware human silhouette rendering and monocular geometric priors, which further improve reconstruction quality. Experiments on the EMDB and NeuMan datasets demonstrate superior or on-par performance with existing methods in camera tracking, human pose estimation, novel view synthesis and runtime. Our project page is at https://eth-ait.github.io/ODHSR.
- Abstract(参考訳): フォトリアリスティックなシーンを作成し、人間の中心の3D世界の知覚に際し、単一の単眼のインザワイルド映像から人間の再構築を行う。
最近のニューラルレンダリングの進歩により、全体論的人間シーンの再構築が可能になったが、事前にキャリブレーションされたカメラと人間のポーズ、トレーニングの日々が必要になった。
本研究では,カメラトラッキング,ヒューマンポーズ推定,ヒューマンシーン再構築を同時に行う新しい統合フレームワークを提案する。
3Dガウス・スプレイティングは、人間やシーンのガウス的プリミティブを効率よく学習するために利用され、リコンストラクションベースのカメラトラッキングと人間のポーズ推定モジュールは、ポーズと外見の全体的理解と効果的な切り離しを可能にするように設計されている。
具体的には,人間の変形モジュールを設計し,細部を再構築し,分布外への一般化性を高める。
ヒトとシーンの空間的相関を正確に学習するために,オクルージョンを意識した人間のシルエットレンダリングとモノクロ幾何学的先行手法を導入し,再現性の向上を図る。
EMDBとNeuManデータセットの実験は、カメラトラッキング、人間のポーズ推定、新しいビュー合成、実行時における既存の手法による、優れた、あるいは完全なパフォーマンスを示している。
プロジェクトページはhttps://eth-ait.github.io/ODHSR.orgにある。
関連論文リスト
- WonderHuman: Hallucinating Unseen Parts in Dynamic 3D Human Reconstruction [51.22641018932625]
我々はWonderHumanをモノクラービデオから再構成し、高忠実なノベルビューの合成を行う。
提案手法は,与えられたモノクロ映像からフォトリアリスティックなレンダリングを生成する場合のSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-02-03T04:43:41Z) - Joint Optimization for 4D Human-Scene Reconstruction in the Wild [59.322951972876716]
モノクロビデオから野生の4次元人間シーンを再現する新しい最適化手法JOSHを提案する。
実験の結果,JOSHはグローバルな人間の動き推定と密集したシーン再構築において,より良い結果が得られることが示された。
さらに、より効率的なモデルJOSH3Rを設計し、Webビデオから直接擬似ラベルでトレーニングします。
論文 参考訳(メタデータ) (2025-01-04T01:53:51Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion [35.73448283467723]
SiTHは、イメージ条件付き拡散モデルと3Dメッシュ再構築ワークフローを統合する、新しいパイプラインである。
我々は、入力画像に基づいて、見えないバックビューの外観を幻覚させるために、強力な生成拡散モデルを用いる。
後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。
論文 参考訳(メタデータ) (2023-11-27T14:22:07Z) - Humans in 4D: Reconstructing and Tracking Humans with Transformers [72.50856500760352]
我々は、人間を再構築し、時間とともに追跡するアプローチを提案する。
このアプローチの中核として、人間のメッシュリカバリのためのネットワークの完全な"トランスフォーマライズ"バージョンを提案する。
このネットワークであるHMR 2.0は、芸術の状態を前進させ、過去に1枚の画像から再構成することが困難であった異常なポーズを分析する能力を示す。
論文 参考訳(メタデータ) (2023-05-31T17:59:52Z) - Compositional 3D Human-Object Neural Animation [93.38239238988719]
人間と物体の相互作用(HOI)は、人間中心の視覚生成、AR/VR、ロボット工学などの人間中心のシーン理解アプリケーションに不可欠である。
本稿では,HoIアニメーションにおけるこの課題について,作曲の観点から考察する。
我々は、暗黙のニューラル表現に基づいてHOIダイナミクスをモデル化し、レンダリングするために、ニューラル・ヒューマン・オブジェクトの変形を採用する。
論文 参考訳(メタデータ) (2023-04-27T10:04:56Z) - Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via
Self-supervised Scene Decomposition [40.46674919612935]
Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。
提案手法は,大規模な人間のスキャンデータから抽出した基礎的監督や先行データを必要としない。
シーンの人間と背景の両方を共同でモデル化することで、シーンの分解と表面の再構築を3Dで直接行う。
論文 参考訳(メタデータ) (2023-02-22T18:59:17Z) - Animatable Neural Radiance Fields from Monocular RGB Video [72.6101766407013]
単眼ビデオからの詳細な人体アバター作成のためのアニマタブル神経放射場について述べる。
我々のアプローチは、明示的なポーズ誘導変形を導入することで、人間の動きを伴う動的シーンに神経放射場を拡大する。
実験の結果, 提案手法は, 1) 質の高い細部を持つ暗黙の人間の形状と外観の復元, 2) 任意の視点からの人間の写真リアルなレンダリング, 3) 任意のポーズを持つ人間のアニメーションを実現する。
論文 参考訳(メタデータ) (2021-06-25T13:32:23Z) - Holistic 3D Human and Scene Mesh Estimation from Single View Images [5.100152971410397]
本稿では,1枚のRGB画像から3Dシーンを知覚するエンド・ツー・エンドのトレーニング可能なモデルを提案する。
本研究では,既存の人体メッシュ法や屋内シーン再構築法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-02T23:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。