論文の概要: NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos
- arxiv url: http://arxiv.org/abs/2312.06398v1
- Date: Mon, 11 Dec 2023 14:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:32:46.906337
- Title: NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos
- Title(参考訳): NVFi:ダイナミックビデオによる3次元物理学習のための神経速度場
- Authors: Jinxi Li, Ziyang Song, Bo Yang
- Abstract要約: 本稿では,映像フレームからのみ3次元シーンの形状,外観,身体的速度を同時に学習することを提案する。
複数のデータセットに対して広範な実験を行い、全てのベースライン上での手法の優れた性能を示す。
- 参考スコア(独自算出の注目度): 8.559809421797784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we aim to model 3D scene dynamics from multi-view videos.
Unlike the majority of existing works which usually focus on the common task of
novel view synthesis within the training time period, we propose to
simultaneously learn the geometry, appearance, and physical velocity of 3D
scenes only from video frames, such that multiple desirable applications can be
supported, including future frame extrapolation, unsupervised 3D semantic scene
decomposition, and dynamic motion transfer. Our method consists of three major
components, 1) the keyframe dynamic radiance field, 2) the interframe velocity
field, and 3) a joint keyframe and interframe optimization module which is the
core of our framework to effectively train both networks. To validate our
method, we further introduce two dynamic 3D datasets: 1) Dynamic Object
dataset, and 2) Dynamic Indoor Scene dataset. We conduct extensive experiments
on multiple datasets, demonstrating the superior performance of our method over
all baselines, particularly in the critical tasks of future frame extrapolation
and unsupervised 3D semantic scene decomposition.
- Abstract(参考訳): 本稿では,マルチビュー映像から3次元シーンダイナミクスをモデル化することを目的とする。
トレーニング期間中に新しい視点合成の共通課題に焦点をあてる既存の作品の多くとは違って,ビデオフレームからのみ3次元シーンの幾何学的,外観的,身体的速度を同時に学習し,将来のフレーム外挿,教師なし3次元セマンティックシーンの分解,ダイナミックモーショントランスファーなど,複数の望ましいアプリケーションをサポートすることを提案する。
提案手法は3つの主成分からなる。
1) キーフレーム動的放射場
2)フレーム間速度場,及び
3) 両ネットワークを効果的にトレーニングするためのフレームワークの中核となるキーフレームとフレーム間最適化モジュール。
提案手法を検証するために,2つの動的3Dデータセットを導入する。
1)動的オブジェクトデータセット、及び
2)動的屋内シーンデータセット。
複数のデータセットに対して広範な実験を行い、特に将来のフレーム外挿と教師なしの3Dセマンティックシーン分解のクリティカルタスクにおいて、全てのベースライン上での手法の優れた性能を示す。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - OD-NeRF: Efficient Training of On-the-Fly Dynamic Neural Radiance Fields [63.04781030984006]
ダイナミック・ニューラル・レイディアンス・フィールド(ダイナミック・ニューラル・レイディアンス・フィールド)は、3次元ダイナミック・シーンにおける新しいビュー・シンセサイザーにおいて印象的な結果を示した。
本研究では,ダイナミックシーンのストリーミングが可能な動的NeRFを効率よく訓練・レンダリングするOD-NeRFを提案する。
本アルゴリズムは,6FPSトレーニングと合成動的シーンのレンダリングのインタラクティブな高速化を実現し,実世界の動的シーンの最先端と比較して,大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2023-05-24T07:36:47Z) - SUDS: Scalable Urban Dynamic Scenes [46.965165390077146]
我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。
私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
論文 参考訳(メタデータ) (2023-03-25T18:55:09Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。