論文の概要: Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.06777v1
- Date: Mon, 09 Dec 2024 18:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 23:11:44.486153
- Title: Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving
- Title(参考訳): Driv3R: 自動運転のための高密度4D再構成学習
- Authors: Xin Fei, Wenzhao Zheng, Yueqi Duan, Wei Zhan, Masayoshi Tomizuka, Kurt Keutzer, Jiwen Lu,
- Abstract要約: マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
- 参考スコア(独自算出の注目度): 116.10577967146762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realtime 4D reconstruction for dynamic scenes remains a crucial challenge for autonomous driving perception. Most existing methods rely on depth estimation through self-supervision or multi-modality sensor fusion. In this paper, we propose Driv3R, a DUSt3R-based framework that directly regresses per-frame point maps from multi-view image sequences. To achieve streaming dense reconstruction, we maintain a memory pool to reason both spatial relationships across sensors and dynamic temporal contexts to enhance multi-view 3D consistency and temporal integration. Furthermore, we employ a 4D flow predictor to identify moving objects within the scene to direct our network focus more on reconstructing these dynamic regions. Finally, we align all per-frame pointmaps consistently to the world coordinate system in an optimization-free manner. We conduct extensive experiments on the large-scale nuScenes dataset to evaluate the effectiveness of our method. Driv3R outperforms previous frameworks in 4D dynamic scene reconstruction, achieving 15x faster inference speed compared to methods requiring global alignment. Code: https://github.com/Barrybarry-Smith/Driv3R.
- Abstract(参考訳): 動的シーンのリアルタイム4D再構成は、自動運転の認識にとって重要な課題である。
既存の手法の多くは、自己超越または多モードセンサー融合による深度推定に依存している。
本稿では,DUSt3RベースのフレームワークであるDriv3Rを提案する。
ストリーミング高密度再構築を実現するため,センサ間の空間的関係と動的時間的コンテキストの両方を推論するメモリプールを維持し,マルチビュー3D整合性と時間的統合性を向上させる。
さらに,4次元フロー予測器を用いてシーン内の移動物体を識別し,これらの動的領域の再構築をより重視する。
最後に、全てのフレーム単位のポイントマップを、最適化のない方法で世界座標系に一貫して整列する。
本手法の有効性を評価するため,大規模なnuScenesデータセットについて広範な実験を行った。
Driv3Rは、4D動的シーン再構成において従来のフレームワークよりも優れており、グローバルアライメントを必要とする手法に比べて15倍高速な推論速度を実現している。
コード:https://github.com/Barrybarry-Smith/Driv3R。
関連論文リスト
- St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction [72.54905331756076]
動的シーンのモノクロ3次元再構成にビデオ拡散モデルを再利用するGeo4Dを提案する。
このようなビデオモデルによってキャプチャされた強いダイナミックな事前情報を活用することで、Geo4Dは合成データのみを使用して訓練することができる。
論文 参考訳(メタデータ) (2025-04-10T17:59:55Z) - D^2USt3R: Enhancing 3D Reconstruction with 4D Pointmaps for Dynamic Scenes [40.371542172080105]
そこで我々は,D2USt3Rを提案する。D2USt3Rは,静的および動的3次元シーンの形状をフィードフォワード方式でシミュレートする。
本手法は,空間的側面と時間的側面の両方を明示的に取り入れることで,提案した4次元ポイントマップへのオブジェクト時間密度対応をカプセル化し,下流タスクを増強する。
論文 参考訳(メタデータ) (2025-04-08T17:59:50Z) - POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction [53.19968902152528]
POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
論文 参考訳(メタデータ) (2025-04-08T05:33:13Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [48.87063562819018]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.006435326659526]
ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。
具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。
意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文 参考訳(メタデータ) (2025-03-09T19:58:51Z) - Dynamics-Aware Gaussian Splatting Streaming Towards Fast On-the-Fly Training for 4D Reconstruction [12.111389926333592]
現在の3DGSベースのストリーミング手法は、ガウス原始体を均一に扱い、密度化されたガウスを常に更新する。
そこで本研究では, 反復的流動性4次元動的空間再構成のための新しい3段階パイプラインを提案する。
提案手法は,オンライン4次元再構成における最先端性能を実現し,実時間トレーニング速度の20%向上,表現品質の向上,リアルタイムレンダリング能力の向上を実証する。
論文 参考訳(メタデータ) (2024-11-22T10:47:47Z) - S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。
この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。
従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文 参考訳(メタデータ) (2024-08-23T12:51:49Z) - DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes [57.12439406121721]
我々は動的自律走行シーンを囲む効率的かつ効果的なフレームワークであるDrivingGaussianを提案する。
動くオブジェクトを持つ複雑なシーンでは、まずシーン全体の静的な背景を逐次、段階的にモデル化します。
次に、複合動的ガウスグラフを利用して、複数の移動物体を処理する。
我々はさらに、ガウススプラッティングに先立ってLiDARを使用して、より詳細でシーンを再構築し、パノラマ一貫性を維持する。
論文 参考訳(メタデータ) (2023-12-13T06:30:51Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。