論文の概要: CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers
- arxiv url: http://arxiv.org/abs/2207.02202v1
- Date: Tue, 5 Jul 2022 17:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 15:31:24.717723
- Title: CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers
- Title(参考訳): CoBEVT: スパース変圧器を用いた協調型バードアイビューセマンティックセマンティックセメンテーション
- Authors: Runsheng Xu, Zhengzhong Tu, Hao Xiang, Wei Shao, Bolei Zhou, Jiaqi Ma
- Abstract要約: CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
- 参考スコア(独自算出の注目度): 36.838065731893735
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bird's eye view (BEV) semantic segmentation plays a crucial role in spatial
sensing for autonomous driving. Although recent literature has made significant
progress on BEV map understanding, they are all based on single-agent
camera-based systems which are difficult to handle occlusions and detect
distant objects in complex traffic scenes. Vehicle-to-Vehicle (V2V)
communication technologies have enabled autonomous vehicles to share sensing
information, which can dramatically improve the perception performance and
range as compared to single-agent systems. In this paper, we propose CoBEVT,
the first generic multi-agent multi-camera perception framework that can
cooperatively generate BEV map predictions. To efficiently fuse camera features
from multi-view and multi-agent data in an underlying Transformer architecture,
we design a fused axial attention or FAX module, which can capture sparsely
local and global spatial interactions across views and agents. The extensive
experiments on the V2V perception dataset, OPV2V, demonstrate that CoBEVT
achieves state-of-the-art performance for cooperative BEV semantic
segmentation. Moreover, CoBEVT is shown to be generalizable to other tasks,
including 1) BEV segmentation with single-agent multi-camera and 2) 3D object
detection with multi-agent LiDAR systems, and achieves state-of-the-art
performance with real-time inference speed.
- Abstract(参考訳): 鳥の目視(BEV)セマンティックセグメンテーションは、自律運転のための空間センシングにおいて重要な役割を果たす。
近年の文献ではBEVマップの理解において大きな進歩を遂げているが、それらはいずれも複雑な交通シーンにおける隠蔽や遠方物体の検出が困難な単一エージェントカメラベースシステムに基づいている。
車両対車両(v2v)通信技術により、自動運転車はセンシング情報を共有できるようになり、単一のエージェントシステムに比べて認識性能と範囲が劇的に向上する。
本稿では,BEVマップ予測を協調的に生成可能な,最初の汎用マルチエージェントマルチカメラ認識フレームワークであるCoBEVTを提案する。
トランスフォーマーアーキテクチャのマルチビューおよびマルチエージェントデータからカメラ特徴を効率的に融合させるため,ビューとエージェント間の局所的およびグローバルな空間的相互作用を疎結合に捉えることのできる,融合軸アテンションまたはFAXモジュールを設計する。
V2V知覚データセットであるOPV2Vに関する広範な実験により、CoBEVTが協調的BEVセマンティックセマンティックセグメンテーションの最先端性能を達成することを示した。
さらに、CoBEVTは、他のタスクにも一般化可能である。
1)単一エージェントマルチカメラによるbevセグメンテーション
2)マルチエージェントLiDARシステムによる3次元物体検出を行い,リアルタイム推論速度で最先端の性能を実現する。
関連論文リスト
- OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception [9.117534139771738]
自律運転の分野で広く認知されている技術として、マルチエージェント協調認識が出現している。
現在のコラボレーティブな認識は、主にLiDAR点雲に依存しており、カメラ画像を用いた手法にはあまり注目されていない。
本研究は,視覚的協調知覚のためのインスタンスレベルの融合変換器を提案する。
論文 参考訳(メタデータ) (2024-07-13T11:38:15Z) - CoBEVFusion: Cooperative Perception with LiDAR-Camera Bird's-Eye View
Fusion [0.0]
協調認識における最近のアプローチは、カメラやLiDARのような単一のセンサー情報しか共有していない。
我々は,LiDARとカメラデータを融合してBird's-Eye View(BEV)表現を生成する,CoBEVFusionというフレームワークを提案する。
BEVセマンティックセグメンテーションと3Dオブジェクト検出という2つの認識課題に対して,協調認識データセットOPV2Vを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-09T17:52:26Z) - ViT-BEVSeg: A Hierarchical Transformer Network for Monocular
Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。
我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。
我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-31T10:18:36Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。