論文の概要: LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.03765v1
- Date: Wed, 04 Mar 2026 06:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.199469
- Title: LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving
- Title(参考訳): LiDARによる自律走行用時空間多視点ステレオ
- Authors: Qihao Sun, Jiarun Liu, Ziqian Ni, Jianyun Xu, Tao Xie, Lijun Zhao, Ruifeng Li, Sheng Yang,
- Abstract要約: 距離深さ推定のための新しい多視点ステレオフレームワークDriveMVSを提案する。
DriveMVSはLiDARプロンプトを2つの方法で埋め込んでいる。
実験により、DriveMVSは複数のベンチマークで最先端の性能、値メートル法精度、時間安定性、ゼロショットクロスドメイン転送を実現している。
- 参考スコア(独自算出の注目度): 21.819622003830883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate metric depth is critical for autonomous driving perception and simulation, yet current approaches struggle to achieve high metric accuracy, multi-view and temporal consistency, and cross-domain generalization. To address these challenges, we present DriveMVS, a novel multi-view stereo framework that reconciles these competing objectives through two key insights: (1) Sparse but metrically accurate LiDAR observations can serve as geometric prompts to anchor depth estimation in absolute scale, and (2) deep fusion of diverse cues is essential for resolving ambiguities and enhancing robustness, while a spatio-temporal decoder ensures consistency across frames. Built upon these principles, DriveMVS embeds the LiDAR prompt in two ways: as a hard geometric prior that anchors the cost volume, and as soft feature-wise guidance fused by a triple-cue combiner. Regarding temporal consistency, DriveMVS employs a spatio-temporal decoder that jointly leverages geometric cues from the MVS cost volume and temporal context from neighboring frames. Experiments show that DriveMVS achieves state-of-the-art performance on multiple benchmarks, excelling in metric accuracy, temporal stability, and zero-shot cross-domain transfer, demonstrating its practical value for scalable, reliable autonomous driving systems.
- Abstract(参考訳): 正確な距離深度は自律運転の認識とシミュレーションにとって重要であるが、現在のアプローチは高い距離精度、多視点および時間的一貫性、およびクロスドメインの一般化を達成するのに苦労している。
これらの課題に対処するために,DriveMVS という新しい多視点ステレオ・フレームワークを提案する。(1) 疎だが測定精度の低いLiDAR観測は,絶対規模で深度推定を行うための幾何的プロンプトとして機能し,(2) あいまいさの解消と堅牢性の強化には多様なキューの深部融合が不可欠であり,一方時空間デコーダはフレーム間の整合性を保証する。
これらの原則に基づいて、DriveMVSはLiDARプロンプトを2つの方法で埋め込む。
時間的一貫性に関して、DriveMVSは、MVSのコストボリュームと隣接するフレームの時間的コンテキストから幾何学的キューを併用する時空間デコーダを採用している。
実験により、DriveMVSは複数のベンチマークで最先端のパフォーマンスを達成し、計量精度、時間的安定性、ゼロショットクロスドメイン転送に優れ、スケーラブルで信頼性の高い自律運転システムにおいて実用的価値を示す。
関連論文リスト
- FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration [21.39395366378851]
本稿では,周波数領域推論と線形時間列モデリングを融合した二分岐フレームワークFoSSを提案する。
Argoverse 1とArgoverse 2ベンチマークの実験では、FoSSが最先端の精度を実現し、22.5%、パラメータが40%以上削減された。
論文 参考訳(メタデータ) (2026-03-01T21:38:59Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion [28.146811420532455]
DVLO4Dは,空間-時空間融合を利用して精度とロバスト性を向上する新しい視覚-LiDARオドメトリーフレームワークである。
提案手法は,82msの予測時間を持つ高効率で,実時間展開の可能性を秘めている。
論文 参考訳(メタデータ) (2025-09-07T11:43:11Z) - KEPT: Knowledge-Enhanced Prediction of Trajectories from Consecutive Driving Frames with Vision-Language Models [19.625631486595505]
本稿では,知識に富んだ視覚言語フレームワークであるKEPTを紹介する。
連続するフロントビュー駆動フレームから直接エゴ軌道を予測する。
オープンループプロトコル間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-03T03:10:42Z) - GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving [5.450011907283289]
本稿では, GMF-Driveを紹介した。これは2つの原則的イノベーションを通じて, 課題を克服するエンドツーエンドフレームワークである。
まず、情報制限ヒストグラムに基づくLiDAR表現を、幾何学的に拡張された柱形式で置き換える。
第二に,高効率空間認識状態空間モデルを用いた高価な変圧器を代替する新しい階層型マンバ融合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-08T08:17:18Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - Multi-Stream Attention Learning for Monocular Vehicle Velocity and
Inter-Vehicle Distance Estimation [25.103483428654375]
車両速度と車間距離の推定は、ADAS(Advanced driver-assistance system)と自律走行車にとって不可欠である。
近年の研究では、低コストの単眼カメラを用いて、車周りの環境をデータ駆動方式で知覚することに焦点を当てている。
MSANetは、例えば、共同走行速度と車間距離推定のための空間的特徴と文脈的特徴の異なる特徴を抽出するために提案されている。
論文 参考訳(メタデータ) (2021-10-22T06:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。