論文の概要: Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.06777v1
- Date: Mon, 09 Dec 2024 18:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:45.539753
- Title: Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving
- Title(参考訳): Driv3R: 自動運転のための高密度4D再構成学習
- Authors: Xin Fei, Wenzhao Zheng, Yueqi Duan, Wei Zhan, Masayoshi Tomizuka, Kurt Keutzer, Jiwen Lu,
- Abstract要約: マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
- 参考スコア(独自算出の注目度): 116.10577967146762
- License:
- Abstract: Realtime 4D reconstruction for dynamic scenes remains a crucial challenge for autonomous driving perception. Most existing methods rely on depth estimation through self-supervision or multi-modality sensor fusion. In this paper, we propose Driv3R, a DUSt3R-based framework that directly regresses per-frame point maps from multi-view image sequences. To achieve streaming dense reconstruction, we maintain a memory pool to reason both spatial relationships across sensors and dynamic temporal contexts to enhance multi-view 3D consistency and temporal integration. Furthermore, we employ a 4D flow predictor to identify moving objects within the scene to direct our network focus more on reconstructing these dynamic regions. Finally, we align all per-frame pointmaps consistently to the world coordinate system in an optimization-free manner. We conduct extensive experiments on the large-scale nuScenes dataset to evaluate the effectiveness of our method. Driv3R outperforms previous frameworks in 4D dynamic scene reconstruction, achieving 15x faster inference speed compared to methods requiring global alignment. Code: https://github.com/Barrybarry-Smith/Driv3R.
- Abstract(参考訳): 動的シーンのリアルタイム4D再構成は、自動運転の認識にとって重要な課題である。
既存の手法の多くは、自己超越または多モードセンサー融合による深度推定に依存している。
本稿では,DUSt3RベースのフレームワークであるDriv3Rを提案する。
ストリーミング高密度再構築を実現するため,センサ間の空間的関係と動的時間的コンテキストの両方を推論するメモリプールを維持し,マルチビュー3D整合性と時間的統合性を向上させる。
さらに,4次元フロー予測器を用いてシーン内の移動物体を識別し,これらの動的領域の再構築をより重視する。
最後に、全てのフレーム単位のポイントマップを、最適化のない方法で世界座標系に一貫して整列する。
本手法の有効性を評価するため,大規模なnuScenesデータセットについて広範な実験を行った。
Driv3Rは、4D動的シーン再構成において従来のフレームワークよりも優れており、グローバルアライメントを必要とする手法に比べて15倍高速な推論速度を実現している。
コード:https://github.com/Barrybarry-Smith/Driv3R。
関連論文リスト
- STORM: Spatio-Temporal Reconstruction Model for Large-Scale Outdoor Scenes [47.4799413169038]
STORMは、スパース観測から動的屋外シーンを再構成するために設計された時間的再構成モデルである。
本稿では,STORMが最先端のシーンごとの最適化手法を超越して,正確な動的シーン再構成を実現することを示す。
また、より広いダイナミックなシーン理解のための自己教師あり学習の可能性を示す4つのモデル応用についても紹介する。
論文 参考訳(メタデータ) (2024-12-31T18:59:58Z) - Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos [76.07894127235058]
本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。
本研究では,この手法を用いて世界整合型擬似3次元点雲の形で大規模データを生成する。
DUSt3Rの変種をトレーニングし、実世界の画像対から構造と3次元運動を予測することで、このデータの有用性を実証する。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - DrivingRecon: Large 4D Gaussian Reconstruction Model For Autonomous Driving [83.27075316161086]
光リアルな4次元ストリートシーンの再構築は、自動運転における実環境シミュレータの開発に不可欠である。
本稿では,汎用的な運転シーン再構築モデルであるLarge 4D Gaussian Reconstruction Model (DrivingRecon)を紹介する。
ドライビングレコンは既存の手法に比べてシーンの再現性や新しいビュー合成を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-12T08:10:31Z) - Dynamics-Aware Gaussian Splatting Streaming Towards Fast On-the-Fly Training for 4D Reconstruction [12.111389926333592]
現在の3DGSベースのストリーミング手法は、ガウス原始体を均一に扱い、密度化されたガウスを常に更新する。
そこで本研究では, 反復的流動性4次元動的空間再構成のための新しい3段階パイプラインを提案する。
提案手法は,オンライン4次元再構成における最先端性能を実現し,実時間トレーニング速度の20%向上,表現品質の向上,リアルタイムレンダリング能力の向上を実証する。
論文 参考訳(メタデータ) (2024-11-22T10:47:47Z) - S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。
この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。
従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文 参考訳(メタデータ) (2024-08-23T12:51:49Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。