論文の概要: BANMo: Building Animatable 3D Neural Models from Many Casual Videos
- arxiv url: http://arxiv.org/abs/2112.12761v1
- Date: Thu, 23 Dec 2021 18:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:28:25.363823
- Title: BANMo: Building Animatable 3D Neural Models from Many Casual Videos
- Title(参考訳): banmo: カジュアルなビデオから3dニューラルモデルを作る
- Authors: Gengshan Yang, Minh Vo, Natalia Neverova, Deva Ramanan, Andrea
Vedaldi, Hanbyul Joo
- Abstract要約: 本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。
Banmoは、多くのモノクロカジュアルビデオから高忠実な3Dモデルを、差別化可能なレンダリングフレームワークで構築する。
実際のデータセットと合成データセットでは、BANMoは人間や動物の以前の研究よりも高忠実な3D再構成を示している。
- 参考スコア(独自算出の注目度): 129.66166595206172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work for articulated 3D shape reconstruction often relies on
specialized sensors (e.g., synchronized multi-camera systems), or pre-built 3D
deformable models (e.g., SMAL or SMPL). Such methods are not able to scale to
diverse sets of objects in the wild. We present BANMo, a method that requires
neither a specialized sensor nor a pre-defined template shape. BANMo builds
high-fidelity, articulated 3D models (including shape and animatable skinning
weights) from many monocular casual videos in a differentiable rendering
framework. While the use of many videos provides more coverage of camera views
and object articulations, they introduce significant challenges in establishing
correspondence across scenes with different backgrounds, illumination
conditions, etc. Our key insight is to merge three schools of thought; (1)
classic deformable shape models that make use of articulated bones and blend
skinning, (2) volumetric neural radiance fields (NeRFs) that are amenable to
gradient-based optimization, and (3) canonical embeddings that generate
correspondences between pixels and an articulated model. We introduce neural
blend skinning models that allow for differentiable and invertible articulated
deformations. When combined with canonical embeddings, such models allow us to
establish dense correspondences across videos that can be self-supervised with
cycle consistency. On real and synthetic datasets, BANMo shows higher-fidelity
3D reconstructions than prior works for humans and animals, with the ability to
render realistic images from novel viewpoints and poses. Project webpage:
banmo-www.github.io .
- Abstract(参考訳): 関節型3d形状再構成の作業は、しばしば特殊なセンサー(例えば、同期マルチカメラシステム)や、事前構築された3d変形可能なモデル(例えば、smalやsmpl)に依存する。
このようなメソッドは、野生のさまざまなオブジェクトセットにスケールできない。
本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。
BANMoは、多くのモノクロカジュアルビデオから高忠実な3Dモデル(形状とアニマタブルなスキンウェイトを含む)を、異なるレンダリングフレームワークで構築する。
多くのビデオを使用することで、カメラのビューやオブジェクトの調音をより広範にカバーできる一方で、背景や照明条件の異なるシーン間での対応を確立する上での重要な課題がもたらされる。
我々は,(1)関節骨とブレンドスキンを用いた古典的変形可能な形状モデル,(2)勾配に基づく最適化に寄与する体積神経放射場(NeRF),(3)ピクセルと関節モデルとの対応を生成する正準埋め込みの3つの学派を融合させることを考察した。
ニューラルブレンドスキンモデルを導入し, 可微分変形と可逆変形を可能にした。
標準埋め込みと組み合わせることで、サイクル整合性で自己教師できるビデオ間の密接な対応を確立することができる。
リアルと合成のデータセットでは、BANMoは人間や動物の以前の作品よりも忠実な3D再構成を示しており、新しい視点やポーズからリアルな画像をレンダリングすることができる。
プロジェクトWebページ: banmo-www.github.io
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Reconstructing Animatable Categories from Videos [65.14948977749269]
アニマタブルな3Dモデルの構築は、3Dスキャン、精巧な登録、手動リグの必要性のために難しい。
本稿では,一眼レフビデオからカテゴリ3Dモデルを構築するRACについて述べる。
私たちは、人間、猫、犬の3Dモデルが50-100のインターネットビデオから学習できることを示します。
論文 参考訳(メタデータ) (2023-05-10T17:56:21Z) - MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。
異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。
本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文 参考訳(メタデータ) (2023-04-17T13:49:04Z) - Structured 3D Features for Reconstructing Controllable Avatars [43.36074729431982]
パラメトリックな統計的メッシュ表面からサンプリングされた高密度な3次元点に画素整列画像特徴をプールする,新しい暗黙の3次元表現に基づくモデルであるStructured 3D Featuresを紹介する。
本研究では,S3Fモデルがモノクロ3D再構成やアルベド,シェーディング推定など,これまでの課題を超越していることを示す。
論文 参考訳(メタデータ) (2022-12-13T18:57:33Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。