論文の概要: CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow
- arxiv url: http://arxiv.org/abs/2403.08919v2
- Date: Sat, 23 Nov 2024 21:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:42.661143
- Title: CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow
- Title(参考訳): CLIP-BEVFormer:地中真実流による多視点画像ベースBEV検出器の強化
- Authors: Chenbin Pan, Burhaneddin Yaman, Senem Velipasalar, Liu Ren,
- Abstract要約: CLIP-BEVFormerは,多視点画像由来のBEVバックボーンを接地真実情報フローで拡張する新しい手法である。
我々は、挑戦的なnuScenesデータセットに関する広範な実験を行い、SOTAに対して顕著で一貫した改善を示す。
- 参考スコア(独自算出の注目度): 20.550935390111686
- License:
- Abstract: Autonomous driving stands as a pivotal domain in computer vision, shaping the future of transportation. Within this paradigm, the backbone of the system plays a crucial role in interpreting the complex environment. However, a notable challenge has been the loss of clear supervision when it comes to Bird's Eye View elements. To address this limitation, we introduce CLIP-BEVFormer, a novel approach that leverages the power of contrastive learning techniques to enhance the multi-view image-derived BEV backbones with ground truth information flow. We conduct extensive experiments on the challenging nuScenes dataset and showcase significant and consistent improvements over the SOTA. Specifically, CLIP-BEVFormer achieves an impressive 8.5\% and 9.2\% enhancement in terms of NDS and mAP, respectively, over the previous best BEV model on the 3D object detection task.
- Abstract(参考訳): 自動運転はコンピュータビジョンにおける重要な領域であり、交通の未来を形作っている。
このパラダイムの中で、システムのバックボーンは複雑な環境を理解する上で重要な役割を果たす。
しかし、バードのアイビュー要素に関しては、明確な監督の欠如が顕著な課題となっている。
この制限に対処するために、コントラスト学習技術の力を活用して、地上の真実情報の流れを持つ多視点画像由来のBEVバックボーンを強化する新しいアプローチであるCLIP-BEVFormerを導入する。
我々は、挑戦的なnuScenesデータセットに関する広範な実験を行い、SOTAに対して顕著で一貫した改善を示す。
特に、CLIP-BEVFormerは、3Dオブジェクト検出タスクにおける以前の最高のBEVモデルよりも、NDSとmAPでそれぞれ8.5\%と9.2\%の強化を実現している。
関連論文リスト
- Robust Bird's Eye View Segmentation by Adapting DINOv2 [3.236198583140341]
低ランク適応(LoRA)を用いた視覚基礎モデルDINOv2をBEV推定に適用する。
我々の実験は、様々な汚職下でのBEV知覚の堅牢性を高めることを示した。
また,適応表現の有効性を,学習可能なパラメータの少ないこと,学習中の収束の高速化の観点から示す。
論文 参考訳(メタデータ) (2024-09-16T12:23:35Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - RoboBEV: Towards Robust Bird's Eye View Perception under Corruptions [34.111443808494506]
我々は、Bright、Dark、Fog、Snow、Motion Blur、Color Quant、Camera Crash、Frame Lostを含む8つの異なる汚職を含む総合的なベンチマークスイートであるRoboBEVを紹介した。
これに基づいて、我々は幅広いBEVベースのモデルに対して広範囲な評価を行い、そのレジリエンスと信頼性を理解します。
我々の発見は、現実の展開において正確性と堅牢性を両立できる将来のBEVモデルを設計するための貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-04-13T17:59:46Z) - BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for
BEV 3D Object Detection [40.45938603642747]
BEV-LGKD という統合フレームワークを提案する。
我々の手法は、RGBモデル間のKDを誘導するためにLiDARポイントのみを使用する。
論文 参考訳(メタデータ) (2022-12-01T16:17:39Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。