論文の概要: AsyncBEV: Cross-modal Flow Alignment in Asynchronous 3D Object Detection
- arxiv url: http://arxiv.org/abs/2601.12994v1
- Date: Mon, 19 Jan 2026 12:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.895249
- Title: AsyncBEV: Cross-modal Flow Alignment in Asynchronous 3D Object Detection
- Title(参考訳): AsyncBEV:非同期3Dオブジェクト検出におけるクロスモーダルフローアライメント
- Authors: Shiming Wang, Holger Caesar, Liangliang Nan, Julian F. P. Kooij,
- Abstract要約: AsyncBEVは、3D Birds' Eye View (BEV)オブジェクト検出モデルのセンサ非同期に対する堅牢性を改善する。
AsyncBEVはシーンフロー推定にインスパイアされ、まず2つの異なるセンサモードのBEV特徴から2次元フローを推定する。
AsyncBEVは,現行のBEV検出アーキテクチャと容易に統合可能であることを示す。
- 参考スコア(独自算出の注目度): 24.862978565737947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, multi-modal perception tasks like 3D object detection typically rely on well-synchronized sensors, both at training and inference. However, despite the use of hardware- or software-based synchronization algorithms, perfect synchrony is rarely guaranteed: Sensors may operate at different frequencies, and real-world factors such as network latency, hardware failures, or processing bottlenecks often introduce time offsets between sensors. Such asynchrony degrades perception performance, especially for dynamic objects. To address this challenge, we propose AsyncBEV, a trainable lightweight and generic module to improve the robustness of 3D Birds' Eye View (BEV) object detection models against sensor asynchrony. Inspired by scene flow estimation, AsyncBEV first estimates the 2D flow from the BEV features of two different sensor modalities, taking into account the known time offset between these sensor measurements. The predicted feature flow is then used to warp and spatially align the feature maps, which we show can easily be integrated into different current BEV detector architectures (e.g., BEV grid-based and token-based). Extensive experiments demonstrate AsyncBEV improves robustness against both small and large asynchrony between LiDAR or camera sensors in both the token-based CMT and grid-based UniBEV, especially for dynamic objects. We significantly outperform the ego motion compensated CMT and UniBEV baselines, notably by $16.6$ % and $11.9$ % NDS on dynamic objects in the worst-case scenario of a $0.5 s$ time offset. Code will be released upon acceptance.
- Abstract(参考訳): 自律運転では、3Dオブジェクト検出のようなマルチモーダルな知覚タスクは、トレーニングと推論の両方において、よく同期されたセンサーに依存している。
センサは異なる周波数で動作し、ネットワーク遅延やハードウェア障害、処理ボトルネックといった現実世界の要因は、センサー間の時間オフセットをしばしば引き起こす。
このような非同期性は、特に動的オブジェクトの知覚性能を低下させる。
この課題に対処するため,我々は3D Birds' Eye View (BEV)オブジェクト検出モデルのセンサ非同期性に対する堅牢性を改善するための,軽量で汎用的なトレーニング可能なモジュールであるAsyncBEVを提案する。
AsyncBEVは、シーンフロー推定にインスパイアされ、2つの異なるセンサーモードのBEV特徴から2Dフローを推定し、これらのセンサー測定間の既知の時間相違を考慮に入れた。
予測された特徴フローを用いて特徴マップをワープし、空間的に整列させることにより、現行のBEV検出器アーキテクチャ(例えば、BEVグリッドベースおよびトークンベース)に容易に統合できることが示される。
大規模な実験では、AsyncBEVはトークンベースのCMTとグリッドベースのUniBEVの両方、特に動的オブジェクトにおいて、LiDARとカメラセンサー間の小型および大型の非同期性に対して堅牢性を改善する。
我々はエゴ運動補償のCMTとUniBEVのベースライン、特に116.6ドル%と111.9ドル%のNDSを、最悪のケースでは0.5ドルsのタイムオフセットで大幅に上回った。
コードは受理時にリリースされる。
関連論文リスト
- ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Asynchrony-Robust Collaborative Perception via Bird's Eye View Flow [45.670727141966545]
協調的知覚は、複数のエージェント間のコミュニケーションを促進することによって、各エージェントの知覚能力を高めることができる。
しかし、エージェント間の時間的同期は、通信遅延、割り込み、時計の不一致により、現実世界では避けられない。
本稿では,鳥の視線(BEV)の流れをベースとした,非同期・ロバスト協調認識システムCoBEVFlowを提案する。
論文 参考訳(メタデータ) (2023-09-29T02:45:56Z) - SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos [20.51396212498941]
SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-18T02:11:01Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - EBBINNOT: A Hardware Efficient Hybrid Event-Frame Tracker for Stationary
Dynamic Vision Sensors [5.674895233111088]
本稿では,静止型ニューロモルフィックセンサによって記録された物体を検知・追跡するための複合イベントフレーム手法を提案する。
静的DVSの背景除去特性を活用するために,フレーム内のイベントの有無を通知するイベントベースバイナリ画像生成を提案する。
静止DVSベースのトラフィック監視ソリューションが、同時に記録されたRGBフレームベースの方法と比較されるのは、これが初めてである。
論文 参考訳(メタデータ) (2020-05-31T03:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。