Fugu-MT 論文翻訳(概要): EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

論文の概要: EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

arxiv url: http://arxiv.org/abs/2311.02077v1
Date: Fri, 3 Nov 2023 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 13:22:06.828356
Title: EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
Title（参考訳）: EmerNeRF: 自己スーパービジョンによる創発的空間時間シーン分解
Authors: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
Abstract要約: EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。本手法はセンサシミュレーションにおける最先端性能を実現する。
参考スコア（独自算出の注目度）: 85.17951804790515
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present EmerNeRF, a simple yet powerful approach for learning spatial-temporal representations of dynamic driving scenes. Grounded in neural fields, EmerNeRF simultaneously captures scene geometry, appearance, motion, and semantics via self-bootstrapping. EmerNeRF hinges upon two core components: First, it stratifies scenes into static and dynamic fields. This decomposition emerges purely from self-supervision, enabling our model to learn from general, in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field from the dynamic field and uses this flow field to further aggregate multi-frame features, amplifying the rendering precision of dynamic objects. Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to represent highly-dynamic scenes self-sufficiently, without relying on ground truth object annotations or pre-trained models for dynamic object segmentation or optical flow estimation. Our method achieves state-of-the-art performance in sensor simulation, significantly outperforming previous methods when reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual foundation model features into 4D space-time and address a general positional bias in modern Transformers, significantly boosting 3D perception performance (e.g., 37.50% relative improvement in occupancy prediction accuracy on average). Finally, we construct a diverse and challenging 120-sequence dataset to benchmark neural fields under extreme and highly-dynamic settings.
Abstract（参考訳）: 動的駆動シーンの時空間表現を学習するための,シンプルながら強力なアプローチであるEmerNeRFを提案する。神経界に接して、emernerfは自己ブートストラップによってシーンの幾何学、外観、動き、セマンティクスを同時に捉える。 EmerNeRFは2つのコアコンポーネントにヒンジする: まず、シーンを静的および動的フィールドに階層化する。この分解は、純粋に自己スーパービジョンから発生し、モデルが一般のデータソースから学習できるようにします。第二に、EmerNeRFは動的場から誘導された流れ場をパラメータ化し、この流れ場を用いて複数のフレームの特徴をさらに集約し、動的オブジェクトのレンダリング精度を増幅する。これら3つのフィールド(静的、動的、フロー)を結合することで、emernerfは、動的オブジェクトのセグメンテーションや光フロー推定のための事前学習されたモデルに頼ることなく、高ダイナミックなシーンを自己完結的に表現できる。センサシミュレーションでは,静的 (+2.93 PSNR) および動的 (+3.70 PSNR) シーンの再構成において, 従来の手法よりも大幅に優れていた。さらに,emernerfの意味的一般化を促進するために,2次元視覚基礎モデルの特徴を4次元時空に持ち上げ,現代のトランスフォーマーにおける一般的な位置偏りに対処し,3次元知覚性能を著しく向上させる(例えば,平均して占有率予測精度の37.50%向上)。最後に、極端かつ高ダイナミックな設定下でニューラルネットワークをベンチマークするために、多種多様な120列データセットを構築します。

関連論文リスト

CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.006435326659526]
ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文参考訳（メタデータ） (2025-03-09T19:58:51Z)
STORM: Spatio-Temporal Reconstruction Model for Large-Scale Outdoor Scenes [47.4799413169038]
STORMは、スパース観測から動的屋外シーンを再構成するために設計された時間的再構成モデルである。本稿では,STORMが最先端のシーンごとの最適化手法を超越して,正確な動的シーン再構成を実現することを示す。また、より広いダイナミックなシーン理解のための自己教師あり学習の可能性を示す4つのモデル応用についても紹介する。
論文参考訳（メタデータ） (2024-12-31T18:59:58Z)
Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-25T08:23:38Z)
SplatFlow: Self-Supervised Dynamic Gaussian Splatting in Neural Motion Flow Field for Autonomous Driving [11.564716761428251]
運動流場(NMFF)内における動的ガウススプラッティングSplatFlowについて紹介する。 SplatFlowは、トラックされた3Dバウンディングボックスを必要とせずに4次元の時空間表現を学習し、正確な動的シーン再構成と新しいビューRGB、深さとフロー合成を可能にする。
論文参考訳（メタデータ） (2024-11-23T07:39:30Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
DENSER: 3D Gaussians Splatting for Scene Reconstruction of Dynamic Urban Environments [0.0]
動的オブジェクトの表現を大幅に強化するフレームワークであるDENSERを提案する。提案手法は最先端の手法を広いマージンで大幅に上回る。
論文参考訳（メタデータ） (2024-09-16T07:11:58Z)
KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter [49.85369344101118]
KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。我々のKFD-NeRFは、同等の計算時間と最先端の視線合成性能で、徹底的な訓練を施した類似または優れた性能を示す。
論文参考訳（メタデータ） (2024-07-18T05:48:24Z)
DynaMoN: Motion-Aware Fast and Robust Camera Localization for Dynamic Neural Radiance Fields [71.94156412354054]
動的ニューラルラジアンス場(DynaMoN)の高速かつロバストなカメラ位置推定法を提案する。 DynaMoNは、初期のカメラポーズ推定と高速で正確なノベルビュー合成のための静的集光線サンプリングのために動的コンテンツを処理している。我々は,TUM RGB-DデータセットとBONN RGB-D Dynamicデータセットの2つの実世界の動的データセットに対するアプローチを広く評価した。
論文参考訳（メタデータ） (2023-09-16T08:46:59Z)
OD-NeRF: Efficient Training of On-the-Fly Dynamic Neural Radiance Fields [63.04781030984006]
ダイナミック・ニューラル・レイディアンス・フィールド(ダイナミック・ニューラル・レイディアンス・フィールド)は、3次元ダイナミック・シーンにおける新しいビュー・シンセサイザーにおいて印象的な結果を示した。本研究では,ダイナミックシーンのストリーミングが可能な動的NeRFを効率よく訓練・レンダリングするOD-NeRFを提案する。本アルゴリズムは,6FPSトレーニングと合成動的シーンのレンダリングのインタラクティブな高速化を実現し,実世界の動的シーンの最先端と比較して,大幅なスピードアップを実現している。
論文参考訳（メタデータ） (2023-05-24T07:36:47Z)
DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes [27.37830742693236]
本稿では,動的放射場を高速に学習するための新しい表現であるDeVRFを提案する。実験により、DeVRFはオンパー高忠実度の結果で2桁のスピードアップを達成することが示された。
論文参考訳（メタデータ） (2022-05-31T12:13:54Z)
Fast Dynamic Radiance Fields with Time-Aware Neural Voxels [106.69049089979433]
タイムアウェアなボクセル特徴を持つシーンを表現し,TiNeuVoxという名前のラジアンスフィールドフレームワークを提案する。我々のフレームワークは、高いレンダリング品質を維持しながら、動的ラディアンスフィールドの最適化を加速する。 TiNeuVoxは8分と8MBのストレージでトレーニングを完了しています。
論文参考訳（メタデータ） (2022-05-30T17:47:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。