論文の概要: RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation
- arxiv url: http://arxiv.org/abs/2505.06515v1
- Date: Sat, 10 May 2025 05:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.879698
- Title: RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation
- Title(参考訳): RESAR-BEV:BEVセグメンテーションにおけるカメラレーダー融合のための説明可能な進歩的残留自己回帰手法
- Authors: Zhiwen Zeng, Yunfei Yin, Zheng Yuan, Argho Dey, Xianjian Bao,
- Abstract要約: Bird's-Eye-View (BEV)セマンティックセマンティックセグメンテーションは、自律運転のための包括的な環境認識を提供する。
我々は,一段階のエンド・ツー・エンドアプローチを超えて進歩する進歩的な改良フレームワークであるRESAR-BEVを提案する。
nuSceneの実験では、7つの本質的な運転シーンカテゴリーで54.0% mIoUでRESAR-BEVの最先端性能を示す。
- 参考スコア(独自算出の注目度): 4.043972974168962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's-Eye-View (BEV) semantic segmentation provides comprehensive environmental perception for autonomous driving but suffers multi-modal misalignment and sensor noise. We propose RESAR-BEV, a progressive refinement framework that advances beyond single-step end-to-end approaches: (1) progressive refinement through residual autoregressive learning that decomposes BEV segmentation into interpretable coarse-to-fine stages via our Drive-Transformer and Modifier-Transformer residual prediction cascaded architecture, (2) robust BEV representation combining ground-proximity voxels with adaptive height offsets and dual-path voxel feature encoding (max+attention pooling) for efficient feature extraction, and (3) decoupled supervision with offline Ground Truth decomposition and online joint optimization to prevent overfitting while ensuring structural coherence. Experiments on nuScenes demonstrate RESAR-BEV achieves state-of-the-art performance with 54.0% mIoU across 7 essential driving-scene categories while maintaining real-time capability at 14.6 FPS. The framework exhibits robustness in challenging scenarios of long-range perception and adverse weather conditions.
- Abstract(参考訳): Bird's-Eye-View (BEV)セマンティックセマンティックセグメンテーションは、自律運転のための包括的な環境認識を提供するが、マルチモーダルなミスアライメントとセンサノイズに悩まされる。
1)BEVセグメンテーションを、ドライブ・トランスフォーマーと変調器・トランスフォーマーによる解釈可能な粗大な予測カスケードアーキテクチャを介して、解釈可能な粗大な段階に分解する残差自己回帰学習による進歩的洗練、(2)適応的な高さオフセットとデュアルパスのボクセル特徴符号化(max+attention pooling)を併用したロバストなBEV表現による効率的な特徴抽出、(3)オフラインのグラウンド・トラス分解とオンライン共同最適化により、オーバーフィッティングを防止し、構造的コヒーレンスを確保する。
nuSceneの実験では、RESAR-BEVは7つの重要な運転シーンカテゴリーで54.0% mIoUの最先端性能を実現し、14.6 FPSでリアルタイム能力を維持する。
この枠組みは、長距離認識と悪天候条件の挑戦的なシナリオにおいて堅牢性を示す。
関連論文リスト
- FastRSR: Efficient and Accurate Road Surface Reconstruction from Bird's Eye View [1.4999444543328293]
道路面の再構築は自動運転に不可欠である。
ビュービューをBird's Eye View (BEV)に変換する現在の手法は、情報損失や表現空間といった課題に直面している。
これらの課題に対処するために、我々は2つの効率的かつ正確なBEVベースのRSRモデルを提案する。
論文 参考訳(メタデータ) (2025-04-13T11:48:52Z) - End-to-End Driving with Online Trajectory Evaluation via BEV World Model [52.10633338584164]
本稿では,BEV Worldモデルを活用し,将来のBEV状態を予測するためのエンドツーエンド駆動フレームワークWoTEを提案する。
我々は,NAVSIMベンチマークとCARLAシミュレータに基づく閉ループBench2Driveベンチマークを用いて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:47:23Z) - BEVMOSNet: Multimodal Fusion for BEV Moving Object Segmentation [3.613463012025065]
本稿では,カメラ,LiDAR,レーダーを利用した最初のエンドツーエンドマルチモーダル融合であるBEVMOSNetを紹介し,鳥眼ビュー(BEV)における移動物体を正確に予測する。
IoUスコアが36.59%向上したのに対し、BEV-MoSegはビジョンベースである。
論文 参考訳(メタデータ) (2025-03-05T09:03:46Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - Understanding the Robustness of 3D Object Detection with Bird's-Eye-View
Representations in Autonomous Driving [31.98600806479808]
Bird's-Eye-View (BEV)表現は、一般的なベンチマークでカメラ入力を備えた3D検出器の性能を大幅に改善した。
様々な代表モデルの自然的・敵対的ロバスト性を広範囲な環境下で評価する。
本稿では,時間的3次元空間に逆パッチを適用して,その整合性を保証する3次元一貫したパッチアタックを提案する。
論文 参考訳(メタデータ) (2023-03-30T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。