論文の概要: Robust Fusion of Object-Level V2X for Learned 3D Object Detection
- arxiv url: http://arxiv.org/abs/2605.00595v1
- Date: Fri, 01 May 2026 12:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.939722
- Title: Robust Fusion of Object-Level V2X for Learned 3D Object Detection
- Title(参考訳): 学習3次元物体検出のためのオブジェクトレベルV2Xのロバスト融合
- Authors: Lukas Ostendorf, Lennart Reiher, Onn Haran, Lutz Eckstein,
- Abstract要約: 車両間通信(V2X)はますます普及しており、車両は自身の状態をオブジェクトレベルの情報として共有することができる。
本稿では,V2Xの情報を3次元物体検出に組み込む方法と,現実的なV2X不完全性に対するシステムの堅牢性について検討する。
その結果,対象レベルの協調情報が検出性能を大幅に向上し,良好な条件下では0.80のNDSを実現する一方で,理想化されたデータに基づいて訓練されたモデルがV2X上で脆弱で過度に回復できることが示唆された。
- 参考スコア(独自算出の注目度): 2.1999185330214828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception for automated driving is largely based on onboard environmental sensors, such as cameras and radar, which are cost-effective but limited by line-of-sight and field-of-view constraints. These inherent limitations may cause onboard perception to fail under occlusions or poor visibility conditions. In parallel, cooperative awareness via vehicle-to-everything (V2X) communication is becoming increasingly available, enabling vehicles and infrastructure to share their own state as object-level information that complements onboard perception. In this work, we study how such V2X information can be integrated into 3D object detection and how robust the resulting system is to realistic V2X imperfections. Using the nuScenes dataset, we emulate object-level cooperative awareness messages from ground truth, injecting controlled noise and object dropout to mimic real-world conditions such as latency, localization errors, and low V2X penetration rates. We convert these messages into a dedicated bird's-eye view (BEV) input and fuse them into a BEVFusion-style detector. Our results demonstrate that while object-level cooperative information can substantially improve detection performance, achieving an NDS of 0.80 under favorable conditions, models trained on idealized data become fragile and over-reliant on V2X. Conversely, our proposed noise-aware training strategy, coupled with explicit confidence encoding, enhances robustness, maintaining performance gains even under severe noise and reduced V2X penetration.
- Abstract(参考訳): 自動走行の認識は、主にカメラやレーダーなどの搭載環境センサーに基づいており、コスト効率は高いが視線制約や視野制約によって制限される。
これらの固有の制限は、船上での知覚が閉塞状態や視認性の悪い条件下で失敗する可能性がある。
並行して、車両間通信(V2X)による協調的な認識がますます多くなり、車やインフラは、車載認識を補完するオブジェクトレベルの情報として、自分たちの状態を共有できるようになる。
本研究では,これらのV2X情報を3次元物体検出に組み込む方法と,現実的なV2X不完全性に対する結果の堅牢性について検討する。
nuScenesデータセットを用いて、制御されたノイズとオブジェクトのドロップアウトを注入することで、遅延、ローカライゼーションエラー、低V2X浸透率などの現実的な条件を模倣する。
我々はこれらのメッセージを専用の鳥眼ビュー(BEV)に変換し、それらをBEVフュージョン型検出器に融合する。
その結果,対象レベルの協調情報が検出性能を大幅に向上し,良好な条件下では0.80のNDSを実現する一方で,理想化されたデータに基づいて訓練されたモデルがV2X上で脆弱で過度に回復できることが示唆された。
一方,本提案手法では,高雑音下でも性能向上が維持され,V2Xの浸透が抑制された。
関連論文リスト
- Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance [12.513296074529727]
本稿では,自律走行のためのリアルタイムエッジベース自律走行軌道プランナ(REACT)を提案する。
REACTは、微調整軽量ビジョンランゲージモデル(VLM)に基づくADのためのV2X統合軌道最適化フレームワークである。
DeepAccidentベンチマークで評価されたREACTは、最先端の性能、77%の衝突率の低減、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
論文 参考訳(メタデータ) (2025-08-01T20:16:04Z) - LCV2I: Communication-Efficient and High-Performance Collaborative Perception Framework with Low-Resolution LiDAR [19.748419057261106]
V2I(Van-to-Infrastructure)は、インフラのセンサーによって収集されたデータを活用して、車両の知覚能力を高める。
ライダーは協調的な知覚においてよく使われるセンサーであり、インテリジェントな車両やインフラに広く備わっている。
低コストなV2Iを実現するためには、LiDARのコスト削減が不可欠である。
論文 参考訳(メタデータ) (2025-02-24T10:46:28Z) - V2X-DGPE: Addressing Domain Gaps and Pose Errors for Robust Collaborative 3D Object Detection [18.694510415777632]
V2X-DGPEは高精度で堅牢なV2X特徴レベルの協調認識フレームワークである。
提案手法は既存の手法より優れ、最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-01-04T19:28:55Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。