論文の概要: Physics-guided Shape-from-Template: Monocular Video Perception through Neural Surrogate Models
- arxiv url: http://arxiv.org/abs/2311.12796v3
- Date: Mon, 15 Apr 2024 11:40:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:17:34.509995
- Title: Physics-guided Shape-from-Template: Monocular Video Perception through Neural Surrogate Models
- Title(参考訳): 物理誘導型形状テンプレート:ニューラルサロゲートモデルによる単眼映像知覚
- Authors: David Stotko, Nils Wandel, Reinhard Klein,
- Abstract要約: トレーニング済みニューラルネットワークを用いた布のSfT再構成アルゴリズムを提案する。
シミュレーションメッシュの異なるレンダリングにより、再構成と対象のビデオシーケンスの画素ワイズ比較が可能になる。
これにより、$phi$-SfTに比べて400-500の係数でランタイムを削減しつつ、正確で安定した、スムーズな再構築された幾何を維持することができる。
- 参考スコア(独自算出の注目度): 4.529832252085145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D reconstruction of dynamic scenes is a long-standing problem in computer graphics and increasingly difficult the less information is available. Shape-from-Template (SfT) methods aim to reconstruct a template-based geometry from RGB images or video sequences, often leveraging just a single monocular camera without depth information, such as regular smartphone recordings. Unfortunately, existing reconstruction methods are either unphysical and noisy or slow in optimization. To solve this problem, we propose a novel SfT reconstruction algorithm for cloth using a pre-trained neural surrogate model that is fast to evaluate, stable, and produces smooth reconstructions due to a regularizing physics simulation. Differentiable rendering of the simulated mesh enables pixel-wise comparisons between the reconstruction and a target video sequence that can be used for a gradient-based optimization procedure to extract not only shape information but also physical parameters such as stretching, shearing, or bending stiffness of the cloth. This allows to retain a precise, stable, and smooth reconstructed geometry while reducing the runtime by a factor of 400-500 compared to $\phi$-SfT, a state-of-the-art physics-based SfT approach.
- Abstract(参考訳): 動的シーンの3D再構成は、コンピュータグラフィックスにおける長年の問題であり、情報が少ないほど困難になる。
Shape-from-Template (SfT) 法は、RGB画像やビデオシーケンスからテンプレートベースの幾何学を再構築することを目的としており、通常のスマートフォン記録のような深度情報を持たない単一の単眼カメラを利用することが多い。
残念なことに、既存の再構成手法は非物理的でノイズが多いか最適化が遅いかのいずれかである。
そこで本研究では, トレーニング済みニューラルネットワークを用いた布のSfT再構成アルゴリズムを提案する。
シミュレーションメッシュの異なるレンダリングにより、再構成と、グラデーションベースの最適化手順で使用可能な対象映像シーケンスとの画素ワイズ比較を可能にし、形状情報だけでなく、伸縮、せん断、曲げ剛性などの物理的パラメータを抽出する。
これにより、最先端物理ベースのSfTアプローチである$\phi$-SfTと比較して、400-500の係数でランタイムを削減しつつ、正確で安定で滑らかに再構成された幾何を維持することができる。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - TFS-NeRF: Template-Free NeRF for Semantic 3D Reconstruction of Dynamic Scene [25.164085646259856]
本稿では,スパースやシングルビューRGBビデオから捉えたダイナミックシーンのための3DセマンティックNeRFを提案する。
我々のフレームワークは、トレーニングプロセスであるLBS予測にInvertible Neural Network(INN)を使用している。
本手法は, 複雑な相互作用において, 変形性オブジェクトと非変形性オブジェクトの両方を高品質に再構成する。
論文 参考訳(メタデータ) (2024-09-26T01:34:42Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - {\phi}-SfT: Shape-from-Template with a Physics-Based Deformation Model [69.27632025495512]
Shape-from-Template (SfT) 法では、単一の単眼RGBカメラから3次元表面の変形を推定する。
本稿では,物理シミュレーションによる2次元観察を解説する新しいSfT手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T17:59:57Z) - SIDER: Single-Image Neural Optimization for Facial Geometric Detail
Recovery [54.64663713249079]
SIDERは、教師なしの方法で単一の画像から詳細な顔形状を復元する新しい光度最適化手法である。
以前の作業とは対照的に、SIDERはデータセットの事前に依存せず、複数のビュー、照明変更、地上の真実の3D形状から追加の監視を必要としない。
論文 参考訳(メタデータ) (2021-08-11T22:34:53Z) - LASR: Learning Articulated Shape Reconstruction from a Monocular Video [97.92849567637819]
1つのビデオから3d形状を学習するためのテンプレートフリー手法を提案する。
本手法は,人間,動物,未知のクラスの映像から,非剛体3D構造を忠実に再構築する。
論文 参考訳(メタデータ) (2021-05-06T21:41:11Z) - Real-time Dense Reconstruction of Tissue Surface from Stereo Optical
Video [10.181846237133167]
立体光学ビデオから組織表面の高密度3次元モデル(3次元)をリアルタイムに再構成する手法を提案する。
まずステレオマッチングを用いてビデオフレームから3D情報を抽出し,再構成した3Dモデルをモザイクする。
2mm未満の精度で高分解能テクスチャを有する復元3Dモデルについて, 生体内および生体内データによる実験結果を得た。
論文 参考訳(メタデータ) (2020-07-16T19:14:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。