論文の概要: EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision
- arxiv url: http://arxiv.org/abs/2311.02077v1
- Date: Fri, 3 Nov 2023 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 13:22:06.828356
- Title: EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision
- Title(参考訳): EmerNeRF: 自己スーパービジョンによる創発的空間時間シーン分解
- Authors: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim,
Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
- Abstract要約: EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 85.17951804790515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EmerNeRF, a simple yet powerful approach for learning
spatial-temporal representations of dynamic driving scenes. Grounded in neural
fields, EmerNeRF simultaneously captures scene geometry, appearance, motion,
and semantics via self-bootstrapping. EmerNeRF hinges upon two core components:
First, it stratifies scenes into static and dynamic fields. This decomposition
emerges purely from self-supervision, enabling our model to learn from general,
in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field
from the dynamic field and uses this flow field to further aggregate
multi-frame features, amplifying the rendering precision of dynamic objects.
Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to
represent highly-dynamic scenes self-sufficiently, without relying on ground
truth object annotations or pre-trained models for dynamic object segmentation
or optical flow estimation. Our method achieves state-of-the-art performance in
sensor simulation, significantly outperforming previous methods when
reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In
addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual
foundation model features into 4D space-time and address a general positional
bias in modern Transformers, significantly boosting 3D perception performance
(e.g., 37.50% relative improvement in occupancy prediction accuracy on
average). Finally, we construct a diverse and challenging 120-sequence dataset
to benchmark neural fields under extreme and highly-dynamic settings.
- Abstract(参考訳): 動的駆動シーンの時空間表現を学習するための,シンプルながら強力なアプローチであるEmerNeRFを提案する。
神経界に接して、emernerfは自己ブートストラップによってシーンの幾何学、外観、動き、セマンティクスを同時に捉える。
EmerNeRFは2つのコアコンポーネントにヒンジする: まず、シーンを静的および動的フィールドに階層化する。
この分解は、純粋に自己スーパービジョンから発生し、モデルが一般のデータソースから学習できるようにします。
第二に、EmerNeRFは動的場から誘導された流れ場をパラメータ化し、この流れ場を用いて複数のフレームの特徴をさらに集約し、動的オブジェクトのレンダリング精度を増幅する。
これら3つのフィールド(静的、動的、フロー)を結合することで、emernerfは、動的オブジェクトのセグメンテーションや光フロー推定のための事前学習されたモデルに頼ることなく、高ダイナミックなシーンを自己完結的に表現できる。
センサシミュレーションでは,静的 (+2.93 PSNR) および動的 (+3.70 PSNR) シーンの再構成において, 従来の手法よりも大幅に優れていた。
さらに,emernerfの意味的一般化を促進するために,2次元視覚基礎モデルの特徴を4次元時空に持ち上げ,現代のトランスフォーマーにおける一般的な位置偏りに対処し,3次元知覚性能を著しく向上させる(例えば,平均して占有率予測精度の37.50%向上)。
最後に、極端かつ高ダイナミックな設定下でニューラルネットワークをベンチマークするために、多種多様な120列データセットを構築します。
関連論文リスト
- GauFRe: Gaussian Deformation Fields for Real-time Dynamic Novel View
Synthesis [17.572987038801475]
変形可能な3次元ガウスを用いた動的シーン再構成手法を提案する。
差別化可能なパイプラインは、セルフ教師付きレンダリングでエンドツーエンドに最適化されている。
我々の手法は、最先端のニューラルラジアンス場法に匹敵する。
論文 参考訳(メタデータ) (2023-12-18T18:59:03Z) - DynMF: Neural Motion Factorization for Real-time Dynamic View Synthesis
with 3D Gaussian Splatting [35.69069478773709]
動的シーンの点当たりの運動は、明示的あるいは学習的な軌跡の小さなセットに分解することができると論じる。
我々の表現は解釈可能であり、効率的であり、複雑な動的シーンの動きのリアルタイムなビュー合成を提供するのに十分な表現力を持っている。
論文 参考訳(メタデータ) (2023-11-30T18:59:11Z) - Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and
Real-time Rendering [38.74244725059936]
周期振動ガウスモデル(PVG)を提案する。
PVGは、当初静的シーン表現のために設計された効率的な3Dガウススプラッティング技術に基づいている。
PVGは動的シーンと静的シーンの両方に対して、再構築と新規ビュー合成の両方において最先端の代替手段を超越していることを示す。
論文 参考訳(メタデータ) (2023-11-30T13:53:50Z) - Dynamic Appearance Particle Neural Radiance Field [4.122877372953095]
本研究では3次元シーンにおける視覚的要素の運動をモデル化するための粒子ベース表現を導入した動的外観粒子ニューラルレイダンス場(DAP-NeRF)を提案する。
DAP-NeRFは静的場と動的場の重ね合わせからなる。
静的場、粒子の視覚的特徴、運動モデルを含む全てのコンポーネントは、シーンに関する事前の幾何学的知識のない単眼ビデオから学習される。
論文 参考訳(メタデータ) (2023-10-11T22:04:33Z) - Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis [58.5779956899918]
動的シーンビュー合成と6自由度(6-DOF)追跡のタスクを同時に処理する手法を提案する。
我々は、シーンを3Dガウスアンのコレクションとしてモデル化する最近の研究に触発された、分析バイシンセサイザーの枠組みに従う。
我々は,1人称視点合成,動的合成シーン合成,4次元映像編集など,我々の表現によって実現された多数のダウンストリームアプリケーションを紹介した。
論文 参考訳(メタデータ) (2023-08-18T17:59:21Z) - OD-NeRF: Efficient Training of On-the-Fly Dynamic Neural Radiance Fields [63.04781030984006]
ダイナミック・ニューラル・レイディアンス・フィールド(ダイナミック・ニューラル・レイディアンス・フィールド)は、3次元ダイナミック・シーンにおける新しいビュー・シンセサイザーにおいて印象的な結果を示した。
本研究では,ダイナミックシーンのストリーミングが可能な動的NeRFを効率よく訓練・レンダリングするOD-NeRFを提案する。
本アルゴリズムは,6FPSトレーニングと合成動的シーンのレンダリングのインタラクティブな高速化を実現し,実世界の動的シーンの最先端と比較して,大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2023-05-24T07:36:47Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Neural Deformable Voxel Grid for Fast Optimization of Dynamic View
Synthesis [63.25919018001152]
動的シーンを扱うための高速な変形可能な放射場法を提案する。
本手法は訓練に20分しかかからないD-NeRFに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-06-15T17:49:08Z) - DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes [27.37830742693236]
本稿では,動的放射場を高速に学習するための新しい表現であるDeVRFを提案する。
実験により、DeVRFはオンパー高忠実度の結果で2桁のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2022-05-31T12:13:54Z) - Fast Dynamic Radiance Fields with Time-Aware Neural Voxels [106.69049089979433]
タイムアウェアなボクセル特徴を持つシーンを表現し,TiNeuVoxという名前のラジアンスフィールドフレームワークを提案する。
我々のフレームワークは、高いレンダリング品質を維持しながら、動的ラディアンスフィールドの最適化を加速する。
TiNeuVoxは8分と8MBのストレージでトレーニングを完了しています。
論文 参考訳(メタデータ) (2022-05-30T17:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。