論文の概要: InstDrive: Instance-Aware 3D Gaussian Splatting for Driving Scenes
- arxiv url: http://arxiv.org/abs/2508.12015v1
- Date: Sat, 16 Aug 2025 11:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.513559
- Title: InstDrive: Instance-Aware 3D Gaussian Splatting for Driving Scenes
- Title(参考訳): InstDrive: インスタンス対応の3Dガウシアンスプレイティング
- Authors: Hongyuan Liu, Haochen Yu, Jianfei Jiang, Qiankun Liu, Jiansheng Chen, Huimin Ma,
- Abstract要約: 本稿では,動的駆動シーンのインタラクティブな再構成に適したインスタンス認識型3Dガウス平滑化フレームワークInstDriveを提案する。
本研究では,SAM が生成したマスクを擬似基底構造として用いて,対照的な損失と擬似教師対象を通して2次元特徴学習を誘導する。
3Dレベルでは、インスタンスのアイデンティティを暗黙的にエンコードし、ボクセルベースの損失を通じて一貫性を強制する正規化を導入する。
- 参考スコア(独自算出の注目度): 15.402358029911403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dynamic driving scenes from dashcam videos has attracted increasing attention due to its significance in autonomous driving and scene understanding. While recent advances have made impressive progress, most methods still unify all background elements into a single representation, hindering both instance-level understanding and flexible scene editing. Some approaches attempt to lift 2D segmentation into 3D space, but often rely on pre-processed instance IDs or complex pipelines to map continuous features to discrete identities. Moreover, these methods are typically designed for indoor scenes with rich viewpoints, making them less applicable to outdoor driving scenarios. In this paper, we present InstDrive, an instance-aware 3D Gaussian Splatting framework tailored for the interactive reconstruction of dynamic driving scene. We use masks generated by SAM as pseudo ground-truth to guide 2D feature learning via contrastive loss and pseudo-supervised objectives. At the 3D level, we introduce regularization to implicitly encode instance identities and enforce consistency through a voxel-based loss. A lightweight static codebook further bridges continuous features and discrete identities without requiring data pre-processing or complex optimization. Quantitative and qualitative experiments demonstrate the effectiveness of InstDrive, and to the best of our knowledge, it is the first framework to achieve 3D instance segmentation in dynamic, open-world driving scenes.More visualizations are available at our project page.
- Abstract(参考訳): ダッシュカムビデオからのダイナミックな運転シーンの再構築は、自律運転とシーン理解の重要性から注目されている。
最近の進歩は目覚ましい進歩を遂げているが、ほとんどのメソッドは、すべてのバックグラウンド要素を単一の表現に統一し、インスタンスレベルの理解とフレキシブルなシーン編集の両方を妨げる。
2Dセグメンテーションを3D空間に引き上げようとするアプローチもあるが、多くの場合、連続した機能を個別のIDにマップするために、前処理されたインスタンスIDや複雑なパイプラインに依存している。
さらに、これらの手法は一般的に屋内のシーンにリッチな視点で設計されており、屋外の運転シナリオには適用できない。
本稿では,動的駆動シーンのインタラクティブな再構成に適したインスタンス対応3DガウススプレイティングフレームワークInstDriveを提案する。
本研究では,SAM が生成したマスクを擬似基底構造として用いて,対照的な損失と擬似教師対象を通して2次元特徴学習を誘導する。
3Dレベルでは、インスタンスのアイデンティティを暗黙的にエンコードし、ボクセルベースの損失を通じて一貫性を強制する正規化を導入する。
軽量な静的コードブックは、データ前処理や複雑な最適化を必要とせずに、連続的な機能と離散的なアイデンティティをブリッジする。
InstDriveの有効性を定量的かつ定性的に実証し、私たちの知る限り、ダイナミックでオープンな運転シーンで3Dインスタンスセグメンテーションを実現するための最初のフレームワークである。
関連論文リスト
- MADrive: Memory-Augmented Driving Scene Modeling [8.604680698214196]
MADriveは、既存のシーン再構築の能力を拡張するために設計されたメモリ拡張された再構築フレームワークである。
大型の外部メモリバンクから回収された視覚的に類似した3Dアセットで観察された車両を置き換える。
結果として得られる置換は、シーン内の車両の完全なマルチビュー表現を提供し、実質的に変化する構成の光現実的な合成を可能にする。
論文 参考訳(メタデータ) (2025-06-26T17:41:07Z) - SIRE: SE(3) Intrinsic Rigidity Embeddings [16.630400019100943]
本稿では,オブジェクトの動作発見とシーンの動的再構築のための自己教師型手法であるSIREを紹介する。
本手法では,画像エンコーダを用いてシーンの剛性と形状を推定し,簡単な4次元再構成損失によって教師される。
以上の結果から,SIREは映像データから強い幾何や動きの剛性を,最小限の監督で学習できることが示唆された。
論文 参考訳(メタデータ) (2025-03-10T18:00:30Z) - DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance [5.113012982922924]
本稿では,複数のビューやビデオシーケンスをまたいだ運転シーン生成を支援する条件拡散モデルであるDualDiffを提案する。
微粒な前景オブジェクトの合成を改善するために,FGM (Foreground-Aware Mask) denoising loss関数を提案する。
また,関連する情報を動的に優先順位付けし,ノイズを抑えるために,意味融合注意(Semantic Fusion Attention,SFA)機構を開発した。
論文 参考訳(メタデータ) (2025-03-05T17:31:45Z) - Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning [24.511628941825116]
我々は,人間ライクな駆動チェーン(CoT)推論フレームワークであるSce2DriveXを紹介した。
人間の運転に固有の暗黙の認知連鎖を再構築し、シーン理解、メタアクション推論、行動解釈分析、行動計画および制御をカバーしている。
CARLA Bench2Driveベンチマークでは、シーン理解からエンドツーエンドの駆動まで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-19T09:50:44Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
MagicDrive3Dは、コントロール可能な3Dストリートシーン生成のための新しいフレームワークである。
ロードマップ、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。
多様な高品質な3Dドライビングシーンを生成し、任意のビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。