論文の概要: HOSNeRF: Dynamic Human-Object-Scene Neural Radiance Fields from a Single
Video
- arxiv url: http://arxiv.org/abs/2304.12281v1
- Date: Mon, 24 Apr 2023 17:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 13:57:36.133441
- Title: HOSNeRF: Dynamic Human-Object-Scene Neural Radiance Fields from a Single
Video
- Title(参考訳): HOSNeRF:シングルビデオからの動的人間-物体-シーンニューラルラジアンス場
- Authors: Jia-Wei Liu, Yan-Pei Cao, Tianyuan Yang, Eric Zhongcong Xu, Jussi
Keppo, Ying Shan, Xiaohu Qie, Mike Zheng Shou
- Abstract要約: HOSNeRFは、単一のモノクラーインザワイルドビデオから、ダイナミックな人間オブジェクトシーンのための神経放射場を再構成する。
本手法は,任意のフレームで映像をパージングし,任意の視点からシーンの詳細をレンダリングする。
- 参考スコア(独自算出の注目度): 24.553659249564852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce HOSNeRF, a novel 360{\deg} free-viewpoint rendering method that
reconstructs neural radiance fields for dynamic human-object-scene from a
single monocular in-the-wild video. Our method enables pausing the video at any
frame and rendering all scene details (dynamic humans, objects, and
backgrounds) from arbitrary viewpoints. The first challenge in this task is the
complex object motions in human-object interactions, which we tackle by
introducing the new object bones into the conventional human skeleton hierarchy
to effectively estimate large object deformations in our dynamic human-object
model. The second challenge is that humans interact with different objects at
different times, for which we introduce two new learnable object state
embeddings that can be used as conditions for learning our human-object
representation and scene representation, respectively. Extensive experiments
show that HOSNeRF significantly outperforms SOTA approaches on two challenging
datasets by a large margin of 40% ~ 50% in terms of LPIPS. The code, data, and
compelling examples of 360{\deg} free-viewpoint renderings from single videos
will be released in https://showlab.github.io/HOSNeRF.
- Abstract(参考訳): HOSNeRFは、単一のモノクラーインザワイルドビデオから動的人間オブジェクトシーンのための神経放射場を再構成する、新しい360{\deg}自由視点レンダリング手法である。
本手法は,任意のフレームで映像をパージングし,任意の視点からシーンの詳細(人間,物体,背景)をレンダリングする。
この課題の最初の課題は、人間と物体の相互作用における複雑な物体の動きであり、従来の人間の骨格構造に新しい物体骨を導入し、動的物体モデルにおける大きな物体の変形を効果的に推定する。
第2の課題は、人間が異なる時間に異なるオブジェクトと対話することであり、そこでは、人間のオブジェクト表現とシーン表現を学ぶための条件として使用できる2つの学習可能なオブジェクト状態埋め込みを導入します。
大規模な実験により、HOSNeRFは2つの挑戦的データセットに対するSOTAアプローチをLPIPSの40%~50%で大幅に上回った。
360{\deg}のフリービューポイントレンダリングのコード、データ、説得力のある例がhttps://showlab.github.io/hosnerfで公開される。
関連論文リスト
- HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Compositional 3D Human-Object Neural Animation [93.38239238988719]
人間と物体の相互作用(HOI)は、人間中心の視覚生成、AR/VR、ロボット工学などの人間中心のシーン理解アプリケーションに不可欠である。
本稿では,HoIアニメーションにおけるこの課題について,作曲の観点から考察する。
我々は、暗黙のニューラル表現に基づいてHOIダイナミクスをモデル化し、レンダリングするために、ニューラル・ヒューマン・オブジェクトの変形を採用する。
論文 参考訳(メタデータ) (2023-04-27T10:04:56Z) - Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via
Self-supervised Scene Decomposition [40.46674919612935]
Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。
提案手法は,大規模な人間のスキャンデータから抽出した基礎的監督や先行データを必要としない。
シーンの人間と背景の両方を共同でモデル化することで、シーンの分解と表面の再構築を3Dで直接行う。
論文 参考訳(メタデータ) (2023-02-22T18:59:17Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z) - STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in
Motion with Neural Rendering [9.600908665766465]
本稿では,マルチビューRGB動画のリジッドモーションによる動的シーンの自己監視追跡と再構成を,手動アノテーションなしで行う新しい手法であるSTaRについて述べる。
本手法は,空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを示した。
論文 参考訳(メタデータ) (2020-12-22T23:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。