論文の概要: Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses
- arxiv url: http://arxiv.org/abs/2404.14410v1
- Date: Mon, 22 Apr 2024 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 12:58:23.852158
- Title: Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses
- Title(参考訳): 2Dグリップからダイナミックな3Dシーンを再現するGuess The Unseen
- Authors: Inhee Lee, Byungjun Kim, Hanbyul Joo,
- Abstract要約: 本研究では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。
キーとなるアイデアとして、最近出現した3Dガウススプラッティング(3D-GS)表現を通じて、世界と複数の人間の両方を表現します。
- 参考スコア(独自算出の注目度): 9.529416246409355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a method to reconstruct the world and multiple dynamic humans in 3D from a monocular video input. As a key idea, we represent both the world and multiple humans via the recently emerging 3D Gaussian Splatting (3D-GS) representation, enabling to conveniently and efficiently compose and render them together. In particular, we address the scenarios with severely limited and sparse observations in 3D human reconstruction, a common challenge encountered in the real world. To tackle this challenge, we introduce a novel approach to optimize the 3D-GS representation in a canonical space by fusing the sparse cues in the common space, where we leverage a pre-trained 2D diffusion model to synthesize unseen views while keeping the consistency with the observed 2D appearances. We demonstrate our method can reconstruct high-quality animatable 3D humans in various challenging examples, in the presence of occlusion, image crops, few-shot, and extremely sparse observations. After reconstruction, our method is capable of not only rendering the scene in any novel views at arbitrary time instances, but also editing the 3D scene by removing individual humans or applying different motions for each human. Through various experiments, we demonstrate the quality and efficiency of our methods over alternative existing approaches.
- Abstract(参考訳): 本稿では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。
キーとなるアイデアとして、最近登場した3Dガウス・スプレイティング(3D-GS)表現を通じて世界と複数の人間の両方を表現し、便利かつ効率的に構成し、それらをまとめることを可能にする。
特に,現実世界で遭遇する一般的な課題である3次元の人体再構成において,厳密に制限された,まばらな観察を施したシナリオに対処する。
この課題に対処するために、我々は、共通空間にスパースキューを融合させることにより、標準空間における3D-GS表現を最適化するための新しいアプローチを導入し、そこでは、事前学習された2D拡散モデルを用いて、観察された2Dの外観との整合性を維持しながら、見えないビューを合成する。
提案手法は, 閉塞, 画像作物, 少数ショット, 極めてまばらな観察など, 様々な困難な事例において, 高品質なアニマタブルな3次元人間を再構築することができることを示す。
再建後, 任意のタイミングでシーンをレンダリングするだけでなく, 個々の人間を除去したり, 人ごとに異なる動作を施したりして3Dシーンを編集することができる。
様々な実験を通じて,提案手法の既存手法に対する品質と効率性を実証した。
関連論文リスト
- DiffHuman: Probabilistic Photorealistic 3D Reconstruction of Humans [38.8751809679184]
DiffHumanは1枚のRGB画像から3次元人物再構成を行う確率的手法である。
我々の実験は、DiffHumanが入力画像に見えない、あるいは不確実な人物のために、多種多様な詳細な再構成を作成できることを示している。
論文 参考訳(メタデータ) (2024-03-30T22:28:29Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via
Self-supervised Scene Decomposition [40.46674919612935]
Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。
提案手法は,大規模な人間のスキャンデータから抽出した基礎的監督や先行データを必要としない。
シーンの人間と背景の両方を共同でモデル化することで、シーンの分解と表面の再構築を3Dで直接行う。
論文 参考訳(メタデータ) (2023-02-22T18:59:17Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - HULC: 3D Human Motion Capture with Pose Manifold Sampling and Dense
Contact Guidance [82.09463058198546]
シーンインタラクションを備えたマーカーレスモノクロ3Dモーションキャプチャ(MoCap)は、拡張現実、ロボティクス、仮想アバター生成に関連する挑戦的な研究課題である。
シーン形状を認識した3DヒューマンMoCapの新しいアプローチであるHULCを提案する。
論文 参考訳(メタデータ) (2022-05-11T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。