論文の概要: DeepIPCv3: Event-Aware Multi-Modal Sensor Fusion for Sudden Pedestrian Crossing Avoidance
- arxiv url: http://arxiv.org/abs/2606.01277v1
- Date: Sun, 31 May 2026 14:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.49182
- Title: DeepIPCv3: Event-Aware Multi-Modal Sensor Fusion for Sudden Pedestrian Crossing Avoidance
- Title(参考訳): DeepIPCv3:突発的歩行者交叉回避のためのイベント対応マルチモードセンサフュージョン
- Authors: Oskar Natan, Andi Dharmawan, Aufaclav Zatu Kusuma Frisky, Jazi Eko Istiyanto, Jun Miura,
- Abstract要約: DeepIPCv3は、新しいマルチモーダル自律ナビゲーションフレームワークである。
ダイナミックビジョンセンサーのマイクロ秒レベルの非同期イベントストリームとLiDAR点雲の密度の高い3次元空間幾何学を相乗化する。
提案されたLiDARとDVSの融合は、低軌道と制御コマンドエラーをもたらし、非常に反応性が高く数学的に拘束された回避操作を可能にする。
- 参考スコア(独自算出の注目度): 4.219150964619931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current end-to-end autonomous driving systems predominantly rely on frame-based sensors, which suffer from inherent perception latency and motion blur during highly dynamic encounters, specifically sudden pedestrian crossings. To address this critical safety vulnerability, we propose DeepIPCv3, a novel multi-modal autonomous navigation framework that synergizes the dense 3D spatial geometry of LiDAR point clouds with the microsecond-level asynchronous event streams of a Dynamic Vision Sensor (DVS). We introduce a Transformer-inspired cross-modal attention mechanism to dynamically correlate these distinct modalities, allowing the network to instantaneously prioritize high-speed dynamic updates without sacrificing structural scene awareness. The fused latent representations are then mapped to safe local waypoints and executable control commands via a hybrid policy network that blends heuristic trajectory tracking with direct neural predictions. Due to the severe physical risks associated with live testing of these sudden crossing scenarios, the framework is rigorously evaluated offline using a custom multi-modal dataset collected across both well-illuminated noon and challenging evening conditions. Extensive comparative and ablation studies demonstrate that DeepIPCv3 achieves state-of-the-art predictive performance. By effectively eliminating exposure failures and motion blur, the proposed LiDAR and DVS fusion yields the lowest trajectory and control command errors, enabling highly reactive, mathematically bounded evasive maneuvers regardless of ambient illumination. To support future research, we will release the codes to our GitHub repo at https://github.com/oskarnatan/DeepIPCv3.
- Abstract(参考訳): 現在のエンドツーエンドの自動運転システムは、主にフレームベースのセンサーに依存している。
この重要な安全性の脆弱性に対処するため、DVS(Dynamic Vision Sensor)のマイクロ秒レベルの非同期イベントストリームとLiDAR点雲の密集した3次元空間幾何学を相乗化する、新しいマルチモーダル自律ナビゲーションフレームワークであるDeepIPCv3を提案する。
トランスフォーマーにインスパイアされたクロスモーダルアテンション機構を導入し、これらの異なるモードを動的に相関させ、ネットワークが構造的なシーン認識を犠牲にすることなく、高速な動的更新を即時に優先順位付けできるようにする。
融合した潜在表現は、ヒューリスティックな軌跡追跡と直接の神経予測をブレンドするハイブリッドポリシーネットワークを介して、安全な局所的な経路ポイントと実行可能な制御コマンドにマッピングされる。
これらの突然の横断シナリオのライブテストに関連する重大な物理的リスクのため、このフレームワークは、よく照らされた正午と挑戦的な夜間条件の両方で収集されたカスタムマルチモーダルデータセットを使用して、オフラインで厳格に評価されている。
大規模な比較・アブレーション研究により、DeepIPCv3は最先端の予測性能を達成することが示された。
露光障害や動きのぼかしを効果的に除去することにより、提案したLiDARとDVSの融合は、周囲の照明によらず、非常に反応性が高く数学的に拘束された回避操作を可能にする、最小の軌道と制御コマンドエラーをもたらす。
将来の研究をサポートするため、GitHubリポジトリにhttps://github.com/oskarnatan/DeepIPCv3.comでコードを公開します。
関連論文リスト
- VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction [0.0]
VLMFusionOcc3Dは、自律運転における高密度な3Dセマンティック占有率予測のための堅牢なマルチモーダルフレームワークである。
我々は,車両メタデータと気象条件付きプロンプトを利用した動的ゲーティング機構であるWeather-Aware Adaptive Fusionを導入する。
我々のアプローチは、複雑な都市ナビゲーションのためのスケーラブルで堅牢なソリューションを提供するため、挑戦的な気象シナリオにおいて、大幅な改善を実現している。
論文 参考訳(メタデータ) (2026-03-03T05:22:28Z) - HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving [20.266736153749417]
Vision-Language-Action(VLA)モデルは、マルチモーダル理解を通じて自律運転に有望な機能を提供する。
安全クリティカルなシナリオにおけるそれらの利用は、数値推論、弱い3次元空間認識、文脈に対する高い感度を含む固有の制限によって制限されている。
信頼軌道生成用に設計された階層型時空間VLAモデルであるHiST-VLAを提案する。
論文 参考訳(メタデータ) (2026-02-11T07:08:33Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - SpaRC-AD: A Baseline for Radar-Camera Fusion in End-to-End Autonomous Driving [5.343552118560704]
SpaRC-ADは、計画指向の自律運転のためのクエリベースのエンドツーエンドカメラレーダ融合フレームワークである。
本手法は、複数の自律運転タスクにおいて、最先端のビジョンのみのベースラインよりも強力な改善を実現する。
論文 参考訳(メタデータ) (2025-08-14T12:02:41Z) - VISC: mmWave Radar Scene Flow Estimation using Pervasive Visual-Inertial Supervision [15.903580198464432]
mmWaveレーダの現在のシーンフロー推定法は、3次元LiDARからの高密度点雲によって監視されるのが一般的である。
本稿では,運動モデルに基づく自我運動とニューラルネットワーク学習結果とを融合したドリフトフリー剛性変換推定器を提案する。
レーダーベースの剛性変換に対して強力な監視信号を提供し、静的点のシーンフローを推測する。
論文 参考訳(メタデータ) (2025-07-05T07:53:51Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。