論文の概要: BEVCon: Advancing Bird's Eye View Perception with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2508.04702v1
- Date: Wed, 06 Aug 2025 17:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.869375
- Title: BEVCon: Advancing Bird's Eye View Perception with Contrastive Learning
- Title(参考訳): BEVCon:コントラスト学習による鳥の視線知覚の促進
- Authors: Ziyang Leng, Jiawei Yang, Zhicheng Ren, Bolei Zhou,
- Abstract要約: 本稿では,自律運転におけるバードアイビュー(BEV)知覚を改善するために設計された,対照的な学習フレームワークであるBEVConを紹介する。
BEVConは、最先端のベースラインよりも最大2.4%のmAP改善を達成し、一貫したパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 39.8617381331589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BEVCon, a simple yet effective contrastive learning framework designed to improve Bird's Eye View (BEV) perception in autonomous driving. BEV perception offers a top-down-view representation of the surrounding environment, making it crucial for 3D object detection, segmentation, and trajectory prediction tasks. While prior work has primarily focused on enhancing BEV encoders and task-specific heads, we address the underexplored potential of representation learning in BEV models. BEVCon introduces two contrastive learning modules: an instance feature contrast module for refining BEV features and a perspective view contrast module that enhances the image backbone. The dense contrastive learning designed on top of detection losses leads to improved feature representations across both the BEV encoder and the backbone. Extensive experiments on the nuScenes dataset demonstrate that BEVCon achieves consistent performance gains, achieving up to +2.4% mAP improvement over state-of-the-art baselines. Our results highlight the critical role of representation learning in BEV perception and offer a complementary avenue to conventional task-specific optimizations.
- Abstract(参考訳): 本稿では,自律運転におけるBird's Eye View(BEV)知覚を改善するために設計された,シンプルながら効果的なコントラスト学習フレームワークであるBEVConを紹介する。
BEV知覚は周囲の環境をトップダウンで表現し、3Dオブジェクトの検出、セグメンテーション、軌道予測タスクに不可欠である。
これまでの研究は主に、BEVエンコーダとタスク固有ヘッドの強化に重点を置いてきたが、BEVモデルにおける表現学習の未検討の可能性に対処する。
BEVConは2つのコントラスト学習モジュールを導入している。BEV機能を洗練するためのインスタンス機能コントラストモジュールと、画像バックボーンを強化する視点ビューコントラストモジュールだ。
検出損失の上に設計された高密度のコントラスト学習は、BEVエンコーダとバックボーンの両方にわたる特徴表現の改善につながる。
nuScenesデータセットの大規模な実験により、BEVConは、最先端のベースラインに対して最大2.4%の改善を達成し、一貫したパフォーマンス向上を実現している。
本結果は,BEV知覚における表現学習の重要な役割を強調し,従来のタスク固有最適化に補完的な手段を提供する。
関連論文リスト
- Robust Bird's Eye View Segmentation by Adapting DINOv2 [3.236198583140341]
低ランク適応(LoRA)を用いた視覚基礎モデルDINOv2をBEV推定に適用する。
我々の実験は、様々な汚職下でのBEV知覚の堅牢性を高めることを示した。
また,適応表現の有効性を,学習可能なパラメータの少ないこと,学習中の収束の高速化の観点から示す。
論文 参考訳(メタデータ) (2024-09-16T12:23:35Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow [20.550935390111686]
CLIP-BEVFormerは,多視点画像由来のBEVバックボーンを接地真実情報フローで拡張する新しい手法である。
我々は、挑戦的なnuScenesデータセットに関する広範な実験を行い、SOTAに対して顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2024-03-13T19:21:03Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文 参考訳(メタデータ) (2023-05-23T08:29:42Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。