論文の概要: ReconDreamer++: Harmonizing Generative and Reconstructive Models for Driving Scene Representation
- arxiv url: http://arxiv.org/abs/2503.18438v1
- Date: Mon, 24 Mar 2025 08:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:00.222422
- Title: ReconDreamer++: Harmonizing Generative and Reconstructive Models for Driving Scene Representation
- Title(参考訳): ReconDreamer++: シーン表現を駆動するための生成モデルと再構成モデル
- Authors: Guosheng Zhao, Xiaofeng Wang, Chaojun Ni, Zheng Zhu, Wenkang Qin, Guan Huang, Xingang Wang,
- Abstract要約: ReconDreamerは大規模な演習を成功させた。
生成されたデータと実世界のセンサーの観測の間には、大きなギャップが残っている。
ReconDreamer++は、全体的なレンダリング品質を大幅に改善する拡張フレームワークである。
特に、NTA-IoUの6.1%増加、FIDの23.0%改善、地上測度NTL-IoUの4.5%向上など、大幅な改善が達成されている。
- 参考スコア(独自算出の注目度): 30.16598076671646
- License:
- Abstract: Combining reconstruction models with generative models has emerged as a promising paradigm for closed-loop simulation in autonomous driving. For example, ReconDreamer has demonstrated remarkable success in rendering large-scale maneuvers. However, a significant gap remains between the generated data and real-world sensor observations, particularly in terms of fidelity for structured elements, such as the ground surface. To address these challenges, we propose ReconDreamer++, an enhanced framework that significantly improves the overall rendering quality by mitigating the domain gap and refining the representation of the ground surface. Specifically, ReconDreamer++ introduces the Novel Trajectory Deformable Network (NTDNet), which leverages learnable spatial deformation mechanisms to bridge the domain gap between synthesized novel views and original sensor observations. Moreover, for structured elements such as the ground surface, we preserve geometric prior knowledge in 3D Gaussians, and the optimization process focuses on refining appearance attributes while preserving the underlying geometric structure. Experimental evaluations conducted on multiple datasets (Waymo, nuScenes, PandaSet, and EUVS) confirm the superior performance of ReconDreamer++. Specifically, on Waymo, ReconDreamer++ achieves performance comparable to Street Gaussians for the original trajectory while significantly outperforming ReconDreamer on novel trajectories. In particular, it achieves substantial improvements, including a 6.1% increase in NTA-IoU, a 23. 0% improvement in FID, and a remarkable 4.5% gain in the ground surface metric NTL-IoU, highlighting its effectiveness in accurately reconstructing structured elements such as the road surface.
- Abstract(参考訳): 再生モデルと生成モデルを組み合わせることは、自律運転における閉ループシミュレーションの有望なパラダイムとして現れている。
例えば、ReconDreamerは大規模な操作のレンダリングに顕著な成功を収めた。
しかし、生成したデータと実世界のセンサーの観測との間には大きなギャップが残っている。
これらの課題に対処するために、ドメインギャップを緩和し、表面の表現を洗練することにより、全体的なレンダリング品質を大幅に改善するフレームワークであるReconDreamer++を提案する。
具体的には、ReconDreamer++は、学習可能な空間変形機構を活用して、合成された新しいビューとオリジナルのセンサー観測の間の領域ギャップを埋める、新しいトラジェクトリ・デフォルマブル・ネットワーク(NTDNet)を導入した。
さらに, 地表面などの構造要素に対しては, 3次元ガウスの幾何学的事前知識を保存し, その最適化プロセスは, 基礎となる幾何学的構造を保ちながら外観特性の精細化に重点を置いている。
複数のデータセット(Waymo、nuScenes、PandaSet、EUVS)で実施された実験的評価により、ReconDreamer++の優れたパフォーマンスが確認された。
具体的には、Waymo上では、ReconDreamer++は、Street Gaussiansに匹敵するパフォーマンスをオリジナルのトラジェクトリで達成し、新しいトラジェクトリでReconDreamerを大きく上回っている。
特に、NTA-IoUの6.1%の増加、23.3%の大幅な改善を実現している。
0%改善し, 地上測度NTL-IoUは4.5%向上した。
関連論文リスト
- DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Uni-SLAM: Uncertainty-Aware Neural Implicit SLAM for Real-Time Dense Indoor Scene Reconstruction [11.714682609560278]
屋内再構成のためのハッシュグリッドに基づく3次元空間表現であるUni-SLAMを提案する。
合成および実世界のデータセットの実験により、我々のシステムは最先端の追跡とマッピングの精度を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-29T20:16:58Z) - ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration [30.755679955159504]
ReconDreamerは、世界モデル知識の漸進的な統合を通じて、ドライブシーンの再構築を強化する。
私たちの知る限りでは、ReconDreamerは大規模な操作で効果的にレンダリングする最初の方法です。
論文 参考訳(メタデータ) (2024-11-29T08:47:46Z) - GausSurf: Geometry-Guided 3D Gaussian Splatting for Surface Reconstruction [79.42244344704154]
GausSurfは、テクスチャリッチな領域におけるマルチビュー一貫性と、シーンのテクスチャレスな領域における通常の事前の幾何学的ガイダンスを採用している。
本手法は,再現性や計算時間の観点から,最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-11-29T03:54:54Z) - STMR: Spiral Transformer for Hand Mesh Reconstruction [11.47314655711821]
本稿では,トランスフォーマーアーキテクチャにスパイラルサンプリングを巧みに統合し,メッシュトポロジを利用したハンドメッシュ再構成の性能向上を実現する。
FreiHANDデータセットの実験では、STMRの最先端性能と非並列推論速度が、同様のバックボーン法と比較された。
論文 参考訳(メタデータ) (2024-07-08T14:05:27Z) - SMORE: Simulataneous Map and Object REconstruction [66.66729715211642]
本稿では,LiDARから大規模都市景観を動的に再現する手法を提案する。
我々は、世界が厳格に動く物体と背景に分解される動的なシーンの構成モデルを総合的に捉え、最適化する。
論文 参考訳(メタデータ) (2024-06-19T23:53:31Z) - RaNeuS: Ray-adaptive Neural Surface Reconstruction [87.20343320266215]
微分可能放射場 eg NeRF を利用して、新しいビューレンダリングを生成するとともに、詳細な3次元表面を再構成する。
本研究では,SDFから放射場への射影を一様等間隔のアイコニカル正規化で定式化し,最適化することを考えると,光度重み付け係数を改良する。
提案する textitRaNeuS は,合成データと実データの両方で広く評価されている。
論文 参考訳(メタデータ) (2024-06-14T07:54:25Z) - NeSLAM: Neural Implicit Mapping and Self-Supervised Feature Tracking With Depth Completion and Denoising [23.876281686625134]
我々は,高精度で密度の高い深度推定,ロバストなカメラトラッキング,新しいビューの現実的な合成を実現するフレームワークNeSLAMを提案する。
各種屋内データセットを用いた実験は、再構築、品質追跡、新しいビュー合成におけるシステムの有効性と精度を示す。
論文 参考訳(メタデータ) (2024-03-29T07:59:37Z) - UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation [101.2317840114147]
We present UniDream, a text-to-3D generation framework by integration priors。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文 参考訳(メタデータ) (2023-12-14T09:07:37Z) - Quaternion-Based Graph Convolution Network for Recommendation [45.005089037955536]
Graph Convolution Network (GCN) はリコメンデータシステムで広く利用されている。
GCNは実世界でよく見られるノイズや不完全グラフに弱い。
本稿では,Queternion-based Graph Convolution Network (QGCN)レコメンデーションモデルを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:42:18Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。