論文の概要: MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular
Videos
- arxiv url: http://arxiv.org/abs/2212.13056v3
- Date: Mon, 14 Aug 2023 17:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 17:27:18.573208
- Title: MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular
Videos
- Title(参考訳): MonoNeRF:モノクロビデオから一般化可能な動的放射場を学習する
- Authors: Fengrui Tian, Shaoyi Du, Yueqi Duan
- Abstract要約: フレーム間の特徴対応制約と特徴トラジェクトリによる特徴特徴とシーンフローを同時に学習するMonoNeRFを提案する。
実験の結果、MonoNeRFは複数のシーンから学習でき、シーン編集、見えないフレーム合成、高速な新規シーン適応などの新しいアプリケーションをサポートしています。
- 参考スコア(独自算出の注目度): 23.09306118872098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we target at the problem of learning a generalizable dynamic
radiance field from monocular videos. Different from most existing NeRF methods
that are based on multiple views, monocular videos only contain one view at
each timestamp, thereby suffering from ambiguity along the view direction in
estimating point features and scene flows. Previous studies such as DynNeRF
disambiguate point features by positional encoding, which is not transferable
and severely limits the generalization ability. As a result, these methods have
to train one independent model for each scene and suffer from heavy
computational costs when applying to increasing monocular videos in real-world
applications. To address this, We propose MonoNeRF to simultaneously learn
point features and scene flows with point trajectory and feature correspondence
constraints across frames. More specifically, we learn an implicit velocity
field to estimate point trajectory from temporal features with Neural ODE,
which is followed by a flow-based feature aggregation module to obtain spatial
features along the point trajectory. We jointly optimize temporal and spatial
features in an end-to-end manner. Experiments show that our MonoNeRF is able to
learn from multiple scenes and support new applications such as scene editing,
unseen frame synthesis, and fast novel scene adaptation. Codes are available at
https://github.com/tianfr/MonoNeRF.
- Abstract(参考訳): 本稿では,単眼映像から一般化可能な動的放射能場を学習する問題を対象とする。
複数のビューに基づく既存のnerfメソッドと異なり、単眼ビデオは各タイムスタンプで1つのビューしか含んでおらず、ポイント特徴やシーンフローの推定において、ビュー方向に沿ってあいまいさに苦しむ。
DynNeRFのような従来の研究では、位置符号化による不明瞭な点の特徴は伝達不可能であり、一般化能力を著しく制限している。
結果として、これらの手法は各シーンの独立したモデルを訓練し、実世界のアプリケーションで単眼ビデオの増加に適用する場合、計算コストがかかる。
これに対処するために,モノナーフでは,ポイントの軌跡とフレーム間の特徴対応制約により,ポイントの特徴とシーンフローを同時に学習する。
より具体的には、時間的特徴から点軌道を推定するために暗黙の速度場を学習し、その後にフローベースの特徴集約モジュールが続き、点軌道に沿った空間的特徴を得る。
時間的特徴と空間的特徴をエンドツーエンドで共同で最適化する。
実験の結果、MonoNeRFは複数のシーンから学習でき、シーン編集、見えないフレーム合成、高速な新規シーン適応などの新しいアプリケーションをサポートしています。
コードはhttps://github.com/tianfr/mononerfで入手できる。
関連論文リスト
- D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - CTNeRF: Cross-Time Transformer for Dynamic Neural Radiance Field from Monocular Video [25.551944406980297]
複雑でダイナミックなシーンのモノクロ映像から高品質な新しいビューを生成するための新しいアプローチを提案する。
物体の動きの特徴を集約するために,時間領域と周波数領域の両方で動作するモジュールを導入する。
実験により,動的シーンデータセットにおける最先端手法に対する大幅な改善が示された。
論文 参考訳(メタデータ) (2024-01-10T00:40:05Z) - Point-DynRF: Point-based Dynamic Radiance Fields from a Monocular Video [19.0733297053322]
本稿では,大域的幾何情報とボリュームレンダリング処理を,それぞれニューラルネットワークと動的放射場を用いて学習する点ベース動的放射場について紹介する。
具体的には、幾何学的プロキシから直接ニューラルポイント雲を再構成し、提案した損失を用いて放射場と幾何学的プロキシの両方を最適化する。
提案手法の有効性をNVIDIA Dynamic Scenesデータセットと因果的に捉えたモノクロビデオクリップを用いて検証した。
論文 参考訳(メタデータ) (2023-10-14T19:27:46Z) - GHuNeRF: Generalizable Human NeRF from a Monocular Video [63.741714198481354]
GHuNeRFはモノクロビデオから一般化可能なヒトNeRFモデルを学習する。
広範に使われているZJU-MoCapデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-08-31T09:19:06Z) - MonoNeRF: Learning Generalizable NeRFs from Monocular Videos without
Camera Pose [29.601253968190306]
本稿では,静的なシーンを移動する大規模モノクラービデオに基づいてトレーニング可能な,一般化可能なニューラルラジアンス場(MonoNeRF)を提案する。
MonoNeRFはAutoencoderベースのアーキテクチャに従っており、エンコーダはモノクロ深度とカメラのポーズを推定する。
深度推定、カメラポーズ推定、単一画像の新規ビュー合成など、複数のアプリケーションに適用することができる。
論文 参考訳(メタデータ) (2022-10-13T17:03:22Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from
Sparse Inputs [79.00855490550367]
我々は,多くの入力ビューが利用可能である場合,NeRFは見えない視点のフォトリアリスティックレンダリングを生成することができることを示す。
我々は、未観測の視点からレンダリングされたパッチの幾何学と外観を規則化することで、この問題に対処する。
我々のモデルは、1つのシーンで最適化する他の方法よりも、大規模なマルチビューデータセットで広範囲に事前訓練された条件付きモデルよりも優れています。
論文 参考訳(メタデータ) (2021-12-01T18:59:46Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - Neural Sparse Voxel Fields [151.20366604586403]
高速かつ高品質な自由視点レンダリングのためのニューラルシーン表現であるNeural Sparse Voxel Fields (NSVF)を紹介する。
NSVFは、各細胞の局所特性をモデル化するために、スパース・ボクセル・オクツリーで組織された、ボクセルに結合した暗黙のフィールドのセットを定義する。
提案手法は, 高い品質を達成しつつ, 推論時の最先端技術(NeRF(Mildenhall et al., 2020))よりも10倍以上高速である。
論文 参考訳(メタデータ) (2020-07-22T17:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。