論文の概要: FishBEV: Distortion-Resilient Bird's Eye View Segmentation with Surround-View Fisheye Cameras
- arxiv url: http://arxiv.org/abs/2509.13681v1
- Date: Wed, 17 Sep 2025 04:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.713025
- Title: FishBEV: Distortion-Resilient Bird's Eye View Segmentation with Surround-View Fisheye Cameras
- Title(参考訳): FishBEV:魚眼カメラで見た鳥の視線を歪ませる
- Authors: Hang Li, Dianmo Sheng, Qiankun Dong, Zichun Wang, Zhiwei Xu, Tao Li,
- Abstract要約: 魚眼カメラに特化した新しいBEVセグメンテーションフレームワークであるFishBEVを提案する。
このフレームワークには3つの補完的なイノベーションが導入されている。これには、スケールの一貫性を維持しながら、歪みの下で堅牢な特徴を学習するdistortion-Resilient Multi-scale extract (DRME)バックボーンが含まれる。
Synwoodscapesデータセットの実験により、魚眼BEVセグメンテーションタスクにおける魚眼BEVの性能評価について、魚眼BEVは一貫してSOTAベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 12.001699443894504
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As a cornerstone technique for autonomous driving, Bird's Eye View (BEV) segmentation has recently achieved remarkable progress with pinhole cameras. However, it is non-trivial to extend the existing methods to fisheye cameras with severe geometric distortion, ambiguous multi-view correspondences and unstable temporal dynamics, all of which significantly degrade BEV performance. To address these challenges, we propose FishBEV, a novel BEV segmentation framework specifically tailored for fisheye cameras. This framework introduces three complementary innovations, including a Distortion-Resilient Multi-scale Extraction (DRME) backbone that learns robust features under distortion while preserving scale consistency, an Uncertainty-aware Spatial Cross-Attention (U-SCA) mechanism that leverages uncertainty estimation for reliable cross-view alignment, a Distance-aware Temporal Self-Attention (D-TSA) module that adaptively balances near field details and far field context to ensure temporal coherence. Extensive experiments on the Synwoodscapes dataset demonstrate that FishBEV consistently outperforms SOTA baselines, regarding the performance evaluation of FishBEV on the surround-view fisheye BEV segmentation tasks.
- Abstract(参考訳): 自律走行のための基礎技術として、Bird's Eye View (BEV)セグメンテーションは、最近ピンホールカメラで顕著な進歩を遂げた。
しかし、既存の手法を、厳密な幾何学的歪み、曖昧な多視点対応、不安定な時間的ダイナミクスを備えた魚眼カメラに拡張することは、容易ではない。
これらの課題に対処するため,魚眼カメラに特化した新しいBEVセグメンテーションフレームワークであるFishBEVを提案する。
このフレームワークは、スケールの一貫性を維持しながら歪みの下で堅牢な特徴を学習する Distortion-Resilient Multi-scale extract (DRME) バックボーン、信頼性の高いクロスビューアライメントのための不確実性推定を利用する不確実性認識空間的クロスアテンション (U-SCA) メカニズム、フィールドに近い詳細と時間的コヒーレンスを確保するために適応的にバランスをとるD-TSA (Distance-aware Temporal Self-Attention) モジュールを含む3つの補完的なイノベーションを導入している。
Synwoodscapesデータセットの大規模な実験により、魚眼BEVセグメンテーションタスクにおける魚眼BEVの性能評価について、魚眼BEVは一貫してSOTAベースラインを上回っていることが示された。
関連論文リスト
- RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation [4.043972974168962]
Bird's-Eye-View (BEV)セマンティックセマンティックセグメンテーションは、自律運転のための包括的な環境認識を提供する。
我々は,一段階のエンド・ツー・エンドアプローチを超えて進歩する進歩的な改良フレームワークであるRESAR-BEVを提案する。
nuSceneの実験では、7つの本質的な運転シーンカテゴリーで54.0% mIoUでRESAR-BEVの最先端性能を示す。
論文 参考訳(メタデータ) (2025-05-10T05:10:07Z) - LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - DaF-BEVSeg: Distortion-aware Fisheye Camera based Bird's Eye View Segmentation with Occlusion Reasoning [7.012508171229966]
商業車両で一般的に使用されるサラウンドビュー魚眼カメラのBEVセグメンテーションに関する作業は限られている。
我々は,様々な道路タイプ,天気,照明条件からなるコニャータシミュレータを用いて,合成データセットを作成する。
我々は,BEVセグメンテーションを任意のカメラモデルで動作するように一般化し,多様なカメラを混合するのに有用である。
論文 参考訳(メタデータ) (2024-04-09T14:43:19Z) - CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow [20.550935390111686]
CLIP-BEVFormerは,多視点画像由来のBEVバックボーンを接地真実情報フローで拡張する新しい手法である。
我々は、挑戦的なnuScenesデータセットに関する広範な実験を行い、SOTAに対して顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2024-03-13T19:21:03Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection [47.7933708173225]
近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。
本稿では,BEVNeXtと呼ばれる高密度BEVフレームワークを紹介する。
nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方を上回っている。
論文 参考訳(メタデータ) (2023-12-04T07:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。