論文の概要: TFS-NeRF: Template-Free NeRF for Semantic 3D Reconstruction of Dynamic Scene
- arxiv url: http://arxiv.org/abs/2409.17459v2
- Date: Wed, 6 Nov 2024 09:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 19:39:48.106605
- Title: TFS-NeRF: Template-Free NeRF for Semantic 3D Reconstruction of Dynamic Scene
- Title(参考訳): TFS-NeRF:動的シーンのセマンティック3次元再構成のためのテンプレートフリーNeRF
- Authors: Sandika Biswas, Qianyi Wu, Biplab Banerjee, Hamid Rezatofighi,
- Abstract要約: 本稿では,スパースやシングルビューRGBビデオから捉えたダイナミックシーンのための3DセマンティックNeRFを提案する。
我々のフレームワークは、トレーニングプロセスであるLBS予測にInvertible Neural Network(INN)を使用している。
本手法は, 複雑な相互作用において, 変形性オブジェクトと非変形性オブジェクトの両方を高品質に再構成する。
- 参考スコア(独自算出の注目度): 25.164085646259856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advancements in Neural Implicit models for 3D surface reconstruction, handling dynamic environments with arbitrary rigid, non-rigid, or deformable entities remains challenging. Many template-based methods are entity-specific, focusing on humans, while generic reconstruction methods adaptable to such dynamic scenes often require additional inputs like depth or optical flow or rely on pre-trained image features for reasonable outcomes. These methods typically use latent codes to capture frame-by-frame deformations. In contrast, some template-free methods bypass these requirements and adopt traditional LBS (Linear Blend Skinning) weights for a detailed representation of deformable object motions, although they involve complex optimizations leading to lengthy training times. To this end, as a remedy, this paper introduces TFS-NeRF, a template-free 3D semantic NeRF for dynamic scenes captured from sparse or single-view RGB videos, featuring interactions among various entities and more time-efficient than other LBS-based approaches. Our framework uses an Invertible Neural Network (INN) for LBS prediction, simplifying the training process. By disentangling the motions of multiple entities and optimizing per-entity skinning weights, our method efficiently generates accurate, semantically separable geometries. Extensive experiments demonstrate that our approach produces high-quality reconstructions of both deformable and non-deformable objects in complex interactions, with improved training efficiency compared to existing methods.
- Abstract(参考訳): 3次元表面再構成のためのニューラルインプリシットモデルの発展にもかかわらず、任意の剛性、非剛性、変形可能なエンティティによる動的環境の扱いは依然として困難である。
多くのテンプレートベースの手法は、人間に焦点をあてたエンティティ固有であり、そのようなダイナミックなシーンに適応可能な汎用的な再構成手法は、しばしば深度や光の流れのような追加の入力を必要とするか、合理的な結果を得るために事前訓練された画像特徴に依存している。
これらの手法は通常、フレーム単位の変形をキャプチャするために潜時符号を使用する。
対照的に、いくつかのテンプレートフリーメソッドはこれらの要件を回避し、変形可能な物体の動きの詳細な表現に従来のLBS重み(Linear Blend Skinning)を採用する。
この目的のために,本稿では,スパースやシングルビューRGBビデオから取得した動的シーンのテンプレートフリーな3DセマンティックNeRFであるTFS-NeRFを紹介し,様々なエンティティ間のインタラクションと,他のLBSベースのアプローチよりも時間効率のよいアプローチを提案する。
我々のフレームワークは、LBS予測にInvertible Neural Network(INN)を使用し、トレーニングプロセスを簡素化する。
本手法は,複数の実体の運動を分離し,各中心のスキン重量を最適化することにより,高精度でセマンティックに分離可能な測地を効率的に生成する。
大規模実験により, 複雑な相互作用において, 変形可能なオブジェクトと非変形可能なオブジェクトの両方を高品質に再構成し, 既存の手法と比較して訓練効率が向上した。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Physics-guided Shape-from-Template: Monocular Video Perception through Neural Surrogate Models [4.529832252085145]
トレーニング済みニューラルネットワークを用いた布のSfT再構成アルゴリズムを提案する。
シミュレーションメッシュの異なるレンダリングにより、再構成と対象のビデオシーケンスの画素ワイズ比較が可能になる。
これにより、$phi$-SfTに比べて400-500の係数でランタイムを削減しつつ、正確で安定した、スムーズな再構築された幾何を維持することができる。
論文 参考訳(メタデータ) (2023-11-21T18:59:58Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - DeFormer: Integrating Transformers with Deformable Models for 3D Shape
Abstraction from a Single Image [31.154786931081087]
本稿では,パラメータ化デフォルマブルモデルと統合された新しいバイチャネルトランスフォーマアーキテクチャを提案し,プリミティブのグローバルおよび局所的な変形を同時に推定する。
DeFormerは、最先端技術よりもより良い再構築精度を実現し、一貫したセマンティック対応で可視化し、解釈性を向上させる。
論文 参考訳(メタデータ) (2023-09-22T02:46:43Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - SNUG: Self-Supervised Neural Dynamic Garments [14.83072352654608]
本研究では,パラメトリックな人体が着る衣服の動的3次元変形を自己指導的に学習する手法を提案する。
これにより、動的変形や細かいしわを含むインタラクティブな衣服のモデルを、トレーニング時間に2桁の速度で学習することができる。
論文 参考訳(メタデータ) (2022-04-05T13:50:21Z) - {\phi}-SfT: Shape-from-Template with a Physics-Based Deformation Model [69.27632025495512]
Shape-from-Template (SfT) 法では、単一の単眼RGBカメラから3次元表面の変形を推定する。
本稿では,物理シミュレーションによる2次元観察を解説する新しいSfT手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T17:59:57Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z) - SoftSMPL: Data-driven Modeling of Nonlinear Soft-tissue Dynamics for
Parametric Humans [15.83525220631304]
我々は,身体形状と運動の関数として,現実的なソフトタスクのダイナミクスをモデル化する学習ベース手法であるSoftSMPLを提案する。
私たちのメソッドの中核には、非常に現実的なダイナミクスをモデル化できる3つの重要なコントリビューションがあります。
論文 参考訳(メタデータ) (2020-04-01T10:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。