Fugu-MT 論文翻訳(概要): OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation

論文の概要: OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation

arxiv url: http://arxiv.org/abs/2407.13137v1
Date: Thu, 18 Jul 2024 03:48:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 18:53:59.354398
Title: OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation
Title（参考訳）: OE-BevSeg:バードアイビュー車両セマンティックセマンティックセグメンテーションのためのマルチモーダル・フレームワーク
Authors: Jian Sun, Yuqi Dai, Chi-Man Vong, Qing Xu, Shengbo Eben Li, Jianqiang Wang, Lei He, Keqiang Li,
Abstract要約: Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
参考スコア（独自算出の注目度）: 57.2213693781672
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bird's-eye-view (BEV) semantic segmentation is becoming crucial in autonomous driving systems. It realizes ego-vehicle surrounding environment perception by projecting 2D multi-view images into 3D world space. Recently, BEV segmentation has made notable progress, attributed to better view transformation modules, larger image encoders, or more temporal information. However, there are still two issues: 1) a lack of effective understanding and enhancement of BEV space features, particularly in accurately capturing long-distance environmental features and 2) recognizing fine details of target objects. To address these issues, we propose OE-BevSeg, an end-to-end multimodal framework that enhances BEV segmentation performance through global environment-aware perception and local target object enhancement. OE-BevSeg employs an environment-aware BEV compressor. Based on prior knowledge about the main composition of the BEV surrounding environment varying with the increase of distance intervals, long-sequence global modeling is utilized to improve the model's understanding and perception of the environment. From the perspective of enriching target object information in segmentation results, we introduce the center-informed object enhancement module, using centerness information to supervise and guide the segmentation head, thereby enhancing segmentation performance from a local enhancement perspective. Additionally, we designed a multimodal fusion branch that integrates multi-view RGB image features with radar/LiDAR features, achieving significant performance improvements. Extensive experiments show that, whether in camera-only or multimodal fusion BEV segmentation tasks, our approach achieves state-of-the-art results by a large margin on the nuScenes dataset for vehicle segmentation, demonstrating superior applicability in the field of autonomous driving.
Abstract（参考訳）: Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。 2次元多視点画像を3次元の世界空間に投影することで,環境認識の環境認識を実現する。近年、BEVセグメンテーションは、より良いビュー変換モジュール、より大きな画像エンコーダ、より時間的な情報による、顕著な進歩を遂げている。しかし、まだ2つの問題がある。 1)BEV空間の特徴の効果的な理解と強化の欠如、特に長距離環境の特徴を正確に把握すること。 2)対象物の細部を認識すること。これらの課題に対処するために,グローバル環境認識と局所目標オブジェクト拡張を通じて,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。 OE-BevSegは環境対応のBEV圧縮機を使用している。距離間隔の増加に伴って変化するBEV周囲環境の主成分に関する事前知識に基づいて, 長期グローバルモデリングを用いて, モデルによる環境の理解と認識を改善する。セグメンテーション結果における対象対象情報の充実の観点から、センタネス情報を用いてセグメンテーションヘッドを監督・案内し、局所エンハンスメントの観点からセグメンテーション性能を向上させるセンターインフォームドオブジェクトエンハンスメントモジュールを導入する。さらに,マルチビューRGB画像機能とレーダ/LiDAR機能を統合したマルチモーダル融合ブランチを設計し,大幅な性能向上を実現した。広汎な実験により, カメラオンリー, マルチモーダル融合BEVセグメンテーションタスクにおいても, 車両セグメンテーションのためのnuScenesデータセットにおいて, 最先端の成果が得られ, 自律走行の分野での優れた適用性が示された。

関連論文リスト

MIC-BEV: Multi-Infrastructure Camera Bird's-Eye-View Transformer with Relation-Aware Fusion for 3D Object Detection [14.97413385915044]
我々は,トランスフォーマーをベースとした鳥眼ビュー(BEV)認識フレームワークであるMIC-BEVを紹介した。トレーニングと評価を支援するため,インフラに基づくオブジェクト検出のための合成データセットM2Iを導入する。 M2Iと実世界のデータセットRoScenesの実験は、3Dオブジェクト検出において、MIC-BEVが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-10-28T17:49:42Z)
BEVCon: Advancing Bird's Eye View Perception with Contrastive Learning [39.8617381331589]
本稿では,自律運転におけるバードアイビュー(BEV)知覚を改善するために設計された,対照的な学習フレームワークであるBEVConを紹介する。 BEVConは、最先端のベースラインよりも最大2.4%のmAP改善を達成し、一貫したパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-08-06T17:59:37Z)
HV-BEV: Decoupling Horizontal and Vertical Feature Sampling for Multi-View 3D Object Detection [34.72603963887331]
HV-BEVは、BEVグリッドクエリのパラダイムにおける特徴サンプリングを水平特徴集約と垂直適応高さ対応基準点サンプリングに分離する新しいアプローチである。我々の最高のパフォーマンスモデルは、nuScenesテストセットで50.5%のmAPと59.8%のNDSを達成する。
論文参考訳（メタデータ） (2024-12-25T11:49:14Z)
BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文参考訳（メタデータ） (2024-10-28T12:40:27Z)
DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。 DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文参考訳（メタデータ） (2024-01-13T04:21:24Z)
Semi-Supervised Learning for Visual Bird's Eye View Semantic Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。 nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文参考訳（メタデータ） (2023-08-28T12:23:36Z)
SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view 3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。 nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2023-07-21T10:28:19Z)
OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文参考訳（メタデータ） (2023-06-02T17:59:48Z)
Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。 BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文参考訳（メタデータ） (2022-09-12T15:29:13Z)
CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。 CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-05T17:59:28Z)
BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文参考訳（メタデータ） (2022-05-19T17:55:35Z)
GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-16T06:46:45Z)
M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。 M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文参考訳（メタデータ） (2022-04-11T13:43:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。