論文の概要: NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos
- arxiv url: http://arxiv.org/abs/2312.06398v1
- Date: Mon, 11 Dec 2023 14:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:32:46.906337
- Title: NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos
- Title(参考訳): NVFi:ダイナミックビデオによる3次元物理学習のための神経速度場
- Authors: Jinxi Li, Ziyang Song, Bo Yang
- Abstract要約: 本稿では,映像フレームからのみ3次元シーンの形状,外観,身体的速度を同時に学習することを提案する。
複数のデータセットに対して広範な実験を行い、全てのベースライン上での手法の優れた性能を示す。
- 参考スコア(独自算出の注目度): 8.559809421797784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we aim to model 3D scene dynamics from multi-view videos.
Unlike the majority of existing works which usually focus on the common task of
novel view synthesis within the training time period, we propose to
simultaneously learn the geometry, appearance, and physical velocity of 3D
scenes only from video frames, such that multiple desirable applications can be
supported, including future frame extrapolation, unsupervised 3D semantic scene
decomposition, and dynamic motion transfer. Our method consists of three major
components, 1) the keyframe dynamic radiance field, 2) the interframe velocity
field, and 3) a joint keyframe and interframe optimization module which is the
core of our framework to effectively train both networks. To validate our
method, we further introduce two dynamic 3D datasets: 1) Dynamic Object
dataset, and 2) Dynamic Indoor Scene dataset. We conduct extensive experiments
on multiple datasets, demonstrating the superior performance of our method over
all baselines, particularly in the critical tasks of future frame extrapolation
and unsupervised 3D semantic scene decomposition.
- Abstract(参考訳): 本稿では,マルチビュー映像から3次元シーンダイナミクスをモデル化することを目的とする。
トレーニング期間中に新しい視点合成の共通課題に焦点をあてる既存の作品の多くとは違って,ビデオフレームからのみ3次元シーンの幾何学的,外観的,身体的速度を同時に学習し,将来のフレーム外挿,教師なし3次元セマンティックシーンの分解,ダイナミックモーショントランスファーなど,複数の望ましいアプリケーションをサポートすることを提案する。
提案手法は3つの主成分からなる。
1) キーフレーム動的放射場
2)フレーム間速度場,及び
3) 両ネットワークを効果的にトレーニングするためのフレームワークの中核となるキーフレームとフレーム間最適化モジュール。
提案手法を検証するために,2つの動的3Dデータセットを導入する。
1)動的オブジェクトデータセット、及び
2)動的屋内シーンデータセット。
複数のデータセットに対して広範な実験を行い、特に将来のフレーム外挿と教師なしの3Dセマンティックシーン分解のクリティカルタスクにおいて、全てのベースライン上での手法の優れた性能を示す。
関連論文リスト
- EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - OD-NeRF: Efficient Training of On-the-Fly Dynamic Neural Radiance Fields [63.04781030984006]
ダイナミック・ニューラル・レイディアンス・フィールド(ダイナミック・ニューラル・レイディアンス・フィールド)は、3次元ダイナミック・シーンにおける新しいビュー・シンセサイザーにおいて印象的な結果を示した。
本研究では,ダイナミックシーンのストリーミングが可能な動的NeRFを効率よく訓練・レンダリングするOD-NeRFを提案する。
本アルゴリズムは,6FPSトレーニングと合成動的シーンのレンダリングのインタラクティブな高速化を実現し,実世界の動的シーンの最先端と比較して,大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2023-05-24T07:36:47Z) - SUDS: Scalable Urban Dynamic Scenes [46.965165390077146]
我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。
私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
論文 参考訳(メタデータ) (2023-03-25T18:55:09Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes [27.37830742693236]
本稿では,動的放射場を高速に学習するための新しい表現であるDeVRFを提案する。
実験により、DeVRFはオンパー高忠実度の結果で2桁のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2022-05-31T12:13:54Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。