論文の概要: MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering
- arxiv url: http://arxiv.org/abs/2403.18820v2
- Date: Wed, 24 Jul 2024 16:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:01:10.259366
- Title: MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering
- Title(参考訳): MetaCap: スパースビューヒューマンパフォーマンスキャプチャとレンダリングのためのマルチビュー画像からのメタラーニング
- Authors: Guoxing Sun, Rishabh Dabral, Pascal Fua, Christian Theobalt, Marc Habermann,
- Abstract要約: そこで本研究では, 高精度かつ高品質な幾何復元と新規なビュー合成手法を提案する。
私たちのキーとなるアイデアは、低解像度のマルチビュービデオからのみ、放射界の重みをメタラーニングすることです。
新しいデータセットWildDynaCap(ワイルドダイナキャップ)は、密集したカメラドームと細いカメラリグの両方に収まる被写体を含んでいる。
- 参考スコア(独自算出の注目度): 91.76893697171117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Faithful human performance capture and free-view rendering from sparse RGB observations is a long-standing problem in Vision and Graphics. The main challenges are the lack of observations and the inherent ambiguities of the setting, e.g. occlusions and depth ambiguity. As a result, radiance fields, which have shown great promise in capturing high-frequency appearance and geometry details in dense setups, perform poorly when naively supervising them on sparse camera views, as the field simply overfits to the sparse-view inputs. To address this, we propose MetaCap, a method for efficient and high-quality geometry recovery and novel view synthesis given very sparse or even a single view of the human. Our key idea is to meta-learn the radiance field weights solely from potentially sparse multi-view videos, which can serve as a prior when fine-tuning them on sparse imagery depicting the human. This prior provides a good network weight initialization, thereby effectively addressing ambiguities in sparse-view capture. Due to the articulated structure of the human body and motion-induced surface deformations, learning such a prior is non-trivial. Therefore, we propose to meta-learn the field weights in a pose-canonicalized space, which reduces the spatial feature range and makes feature learning more effective. Consequently, one can fine-tune our field parameters to quickly generalize to unseen poses, novel illumination conditions as well as novel and sparse (even monocular) camera views. For evaluating our method under different scenarios, we collect a new dataset, WildDynaCap, which contains subjects captured in, both, a dense camera dome and in-the-wild sparse camera rigs, and demonstrate superior results compared to recent state-of-the-art methods on, both, public and WildDynaCap dataset.
- Abstract(参考訳): まばらなRGB観測から得られた忠実な人間のパフォーマンスキャプチャとフリービューレンダリングは、視覚とグラフィックの長年の問題である。
主な課題は、観測の欠如と設定の固有のあいまいさ、例えば閉塞、深さのあいまいさである。
その結果、高頻度の外観と幾何細部を密な設定で捉えることに大きな期待を抱いている放射場は、単にスパースビューの入力に過度に適合するため、スパースカメラビューでそれらをナビゲートする際には、粗い処理を行う。
そこで我々はMetaCapを提案する。MetaCapは高効率で高品質な幾何復元と新しいビュー合成のための手法であり、非常にスパースで、しかも人間の単一のビューである。
私たちのキーとなるアイデアは、被写体の重量を多視点ビデオからメタラーニングすることです。
この前はネットワークウェイトの初期化が優れており、スパースビューキャプチャの曖昧さを効果的に解決する。
人体の関節構造と動きによって引き起こされる表面の変形のため、そのような事前の学習は簡単ではない。
そこで,ポーズ正準化空間におけるフィールド重みのメタラーニングを提案し,空間的特徴範囲を小さくし,特徴学習をより効果的にする。
その結果、フィールドパラメータを微調整して、目立たないポーズ、新しい照明条件、新規でスパースな(モノラルな)カメラビューに素早く一般化することができる。
新しいデータセットWildDynaCapは、密度の高いカメラドームと幅の狭いカメラリグの両方でキャプチャされた被写体を含み、最新の最先端の手法であるパブリックとWildDynaCapのデータセットよりも優れた結果を示す。
関連論文リスト
- FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。
本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。
一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文 参考訳(メタデータ) (2024-09-11T18:58:16Z) - SPARF: Neural Radiance Fields from Sparse and Noisy Poses [58.528358231885846]
SPARF(Sparse Pose Adjusting Radiance Field)を導入し,新規な視点合成の課題に対処する。
提案手法は、NeRFを共同学習し、カメラのポーズを洗練するために、多視点幾何学的制約を利用する。
論文 参考訳(メタデータ) (2022-11-21T18:57:47Z) - im2nerf: Image to Neural Radiance Field in the Wild [47.18702901448768]
im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。
Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-08T23:28:56Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Dense Depth Priors for Neural Radiance Fields from Sparse Input Views [37.92064060160628]
そこで本研究では,部屋全体の新しいビューを,桁違いに少ない画像から合成する手法を提案する。
提案手法は,18枚以上の映像をシーン全体に適用して,挑戦的な屋内シーンにおけるデータ効率の高い新規ビュー合成を可能にする。
論文 参考訳(メタデータ) (2021-12-06T19:00:02Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。