論文の概要: RESBev: Making BEV Perception More Robust
- arxiv url: http://arxiv.org/abs/2603.09529v1
- Date: Tue, 10 Mar 2026 11:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.2543
- Title: RESBev: Making BEV Perception More Robust
- Title(参考訳): RESBev: BEVの認識をよりロバストにする
- Authors: Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang,
- Abstract要約: センサーの配置や敵攻撃による現実の課題は、深刻な異常を引き起こし、自律運転システムの安全性を損なう可能性がある。
本稿では,既存のBEV認識手法に容易に適用可能なレジリエントでプラグアンドプレイなBEV認識手法であるRESBevを提案する。
RESBevは、様々な外乱や敵攻撃に対する既存のBEV知覚モデルの堅牢性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 19.055695534533065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's-eye-view (BEV) perception has emerged as a cornerstone of autonomous driving systems, providing a structured, ego-centric representation critical for downstream planning and control. However, real-world deployment faces challenges from sensor degradation and adversarial attacks, which can cause severe perceptual anomalies and ultimately compromise the safety of autonomous driving systems. To address this, we propose a resilient and plug-and-play BEV perception method, RESBev, which can be easily applied to existing BEV perception methods to enhance their robustness to diverse disturbances. Specifically, we reframe perception robustness as a latent semantic prediction problem. A latent world model is constructed to extract spatiotemporal correlations across sequential BEV observations, thereby learning the underlying BEV state transitions to predict clean BEV features for reconstructing corrupted observations. The proposed framework operates at the semantic feature level of the Lift-Splat-Shoot pipeline, enabling recovery that generalizes across both natural disturbances and adversarial attacks without modifying the underlying backbone. Extensive experiments on the nuScenes dataset demonstrate that, with few-shot fine-tuning, RESBev significantly improves the robustness of existing BEV perception models against various external disturbances and adversarial attacks.
- Abstract(参考訳): バードアイビュー(Bird's-eye-view、BEV)は、自動運転車の基盤として現れ、下流の計画と制御に不可欠な、構造化されたエゴ中心の表現を提供する。
しかし、現実の展開は、センサーの劣化と敵の攻撃による課題に直面しており、これは重大な知覚異常を引き起こし、最終的には自律運転システムの安全性を損なう可能性がある。
そこで本稿では,既存のBEV認識手法に容易に適用可能なレジリエントでプラグアンドプレイなBEV認識手法であるRESBevを提案する。
具体的には、認識の堅牢性を潜在意味予測問題として再設定する。
逐次的BEV観測における時空間相関を抽出し,基礎となるBEV状態遷移を学習し,劣化した観測を再構築するためのクリーンなBEV特徴を予測するために,潜時世界モデルを構築した。
提案するフレームワークは,Lft-Splat-Shootパイプラインのセマンティック機能レベルで動作する。
nuScenesデータセットの大規模な実験により、数発の微調整により、RESBevは既存のBEV知覚モデルの様々な外乱や敵の攻撃に対する堅牢性を大幅に改善することが示された。
関連論文リスト
- ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation [4.043972974168962]
Bird's-Eye-View (BEV)セマンティックセマンティックセグメンテーションは、自律運転のための包括的な環境認識を提供する。
我々は,一段階のエンド・ツー・エンドアプローチを超えて進歩する進歩的な改良フレームワークであるRESAR-BEVを提案する。
nuSceneの実験では、7つの本質的な運転シーンカテゴリーで54.0% mIoUでRESAR-BEVの最先端性能を示す。
論文 参考訳(メタデータ) (2025-05-10T05:10:07Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - RoboBEV: Towards Robust Bird's Eye View Perception under Corruptions [34.111443808494506]
我々は、Bright、Dark、Fog、Snow、Motion Blur、Color Quant、Camera Crash、Frame Lostを含む8つの異なる汚職を含む総合的なベンチマークスイートであるRoboBEVを紹介した。
これに基づいて、我々は幅広いBEVベースのモデルに対して広範囲な評価を行い、そのレジリエンスと信頼性を理解します。
我々の発見は、現実の展開において正確性と堅牢性を両立できる将来のBEVモデルを設計するための貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-04-13T17:59:46Z) - Understanding the Robustness of 3D Object Detection with Bird's-Eye-View
Representations in Autonomous Driving [31.98600806479808]
Bird's-Eye-View (BEV)表現は、一般的なベンチマークでカメラ入力を備えた3D検出器の性能を大幅に改善した。
様々な代表モデルの自然的・敵対的ロバスト性を広範囲な環境下で評価する。
本稿では,時間的3次元空間に逆パッチを適用して,その整合性を保証する3次元一貫したパッチアタックを提案する。
論文 参考訳(メタデータ) (2023-03-30T11:16:58Z) - BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View
Recognition via Perspective Supervision [101.36648828734646]
本稿では、視線を監督する新しい鳥眼ビュー(BEV)検出器について述べる。
提案手法は,従来および現代の画像バックボーンの幅広いスペクトルを用いて検証し,大規模なnuScenesデータセット上で新たなSoTA結果を得る。
論文 参考訳(メタデータ) (2022-11-18T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。