論文の概要: Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis
- arxiv url: http://arxiv.org/abs/2304.12317v1
- Date: Mon, 24 Apr 2023 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 13:50:47.824411
- Title: Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis
- Title(参考訳): ボディードビュー合成のための変形可能なシーン再構成
- Authors: Chonghyuk Song, Gengshan Yang, Kangle Deng, Jun-Yan Zhu, Deva Ramanan
- Abstract要約: ペットと対話する人々の1分間のRGBD動画を撮ると、私たちは新しいカメラの軌跡からシーンを描きます。
これらの課題に対処するために、長い単眼のRGBDビデオから変形可能なシーンをトータル・レコン(Total-Recon)に合成する。
- 参考スコア(独自算出の注目度): 71.773622395446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the task of embodied view synthesis from monocular videos of
deformable scenes. Given a minute-long RGBD video of people interacting with
their pets, we render the scene from novel camera trajectories derived from
in-scene motion of actors: (1) egocentric cameras that simulate the point of
view of a target actor and (2) 3rd-person cameras that follow the actor.
Building such a system requires reconstructing the root-body and articulated
motion of each actor in the scene, as well as a scene representation that
supports free-viewpoint synthesis. Longer videos are more likely to capture the
scene from diverse viewpoints (which helps reconstruction) but are also more
likely to contain larger motions (which complicates reconstruction). To address
these challenges, we present Total-Recon, the first method to
photorealistically reconstruct deformable scenes from long monocular RGBD
videos. Crucially, to scale to long videos, our method hierarchically
decomposes the scene motion into the motion of each object, which itself is
decomposed into global root-body motion and local articulations. To quantify
such "in-the-wild" reconstruction and view synthesis, we collect ground-truth
data from a specialized stereo RGBD capture rig for 11 challenging videos,
significantly outperforming prior art. Code, videos, and data can be found at
https://andrewsonga.github.io/totalrecon .
- Abstract(参考訳): 変形可能なシーンのモノクロ映像から映像合成を具体化する作業について検討する。
ペットと対話する人の1分間のrgbd映像を撮ると、俳優のシーンの動きから得られた新しいカメラの軌跡から、(1)ターゲット俳優の視点をシミュレートするエゴセントリックカメラ、(2)俳優に追随する3人のカメラのシーンを描き出す。
このようなシステムを構築するには、シーン内の各アクターの根体と関節の動きを再構築し、自由視点合成をサポートするシーン表現が必要である。
より長いビデオは、さまざまな視点からシーンを捉え(再構成を助ける)が、より大きな動きを含む(再構成を複雑にする)傾向も高い。
そこで本研究では,長大のrgbdビデオから変形可能なシーンをフォトリアリスティックに再構成する最初の手法であるtotal-reconを提案する。
要は,長いビデオにスケールするために,シーンの動きを各物体の動作に階層的に分解し,その動作自体を大域的な根体運動と局所的な調音に分解する。
このような「野生内」の再構成とビューの合成を定量化するため、特殊なステレオrgbdキャプチャリグから地上データを収集し、11のチャレンジ映像を収集した。
コード、ビデオ、データはhttps://andrewsonga.github.io/totalreconで見ることができる。
関連論文リスト
- Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - Replay: Multi-modal Multi-view Acted Videos for Casual Holography [76.49914880351167]
Replayは、社会的に対話する人間のマルチビュー、マルチモーダルビデオのコレクションである。
全体として、データセットには4000分以上の映像と700万のタイムスタンプ付き高解像度フレームが含まれている。
Replayデータセットには、新規ビュー合成、3D再構成、新規ビュー音響合成、人体と顔の分析、生成モデルの訓練など、多くの潜在的な応用がある。
論文 参考訳(メタデータ) (2023-07-22T12:24:07Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular
Video [44.58519508310171]
我々は、人間の複雑な身体の動きを観察するモノクラービデオで動作する、自由視点レンダリング手法、HumanNeRFを紹介した。
提案手法は,任意のフレームで動画をパージングし,任意のカメラ視点から被写体をレンダリングする。
論文 参考訳(メタデータ) (2022-01-11T18:51:21Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Associative3D: Volumetric Reconstruction from Sparse Views [17.5320459412718]
本稿では,未知のカメラを用いた2つのシーンからの3次元ボリューム再構成の問題について検討する。
本稿では, カメラ/オブジェクト上の再構成, 分布, カメラ/カメラ変換を推定する新しい手法を提案する。
屋内シーンのデータセットにアプローチをトレーニングし、テストし、共同推論アプローチのメリットを厳格に評価する。
論文 参考訳(メタデータ) (2020-07-27T17:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。