論文の概要: VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for
Camera-based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2303.10975v1
- Date: Mon, 20 Mar 2023 09:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:04:08.366326
- Title: VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for
Camera-based 3D Object Detection
- Title(参考訳): vimi: カメラを用いた3次元物体検出のための車内マルチビュー中間融合
- Authors: Zhe Wang, Siqi Fan, Xiaoliang Huo, Tongda Xu, Yan Wang, Jingjing Liu,
Yilun Chen, Ya-Qin Zhang
- Abstract要約: VIC3Dは、車両と交通インフラの両方から多視点カメラを利用する。
我々は、新しい3Dオブジェクト検出フレームワーク、Vines-Infrastructure Multi-view Intermediate fusion (VIMI)を提案する。
VIMIは15.61%のAP_3Dと21.44%のAP_BEVを新しいVIC3DデータセットであるDAIR-V2X-Cで達成している。
- 参考スコア(独自算出の注目度): 17.22491199725569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, Vehicle-Infrastructure Cooperative 3D Object Detection
(VIC3D) makes use of multi-view cameras from both vehicles and traffic
infrastructure, providing a global vantage point with rich semantic context of
road conditions beyond a single vehicle viewpoint. Two major challenges prevail
in VIC3D: 1) inherent calibration noise when fusing multi-view images, caused
by time asynchrony across cameras; 2) information loss when projecting 2D
features into 3D space. To address these issues, We propose a novel 3D object
detection framework, Vehicles-Infrastructure Multi-view Intermediate fusion
(VIMI). First, to fully exploit the holistic perspectives from both vehicles
and infrastructure, we propose a Multi-scale Cross Attention (MCA) module that
fuses infrastructure and vehicle features on selective multi-scales to correct
the calibration noise introduced by camera asynchrony. Then, we design a
Camera-aware Channel Masking (CCM) module that uses camera parameters as priors
to augment the fused features. We further introduce a Feature Compression (FC)
module with channel and spatial compression blocks to reduce the size of
transmitted features for enhanced efficiency. Experiments show that VIMI
achieves 15.61% overall AP_3D and 21.44% AP_BEV on the new VIC3D dataset,
DAIR-V2X-C, significantly outperforming state-of-the-art early fusion and late
fusion methods with comparable transmission cost.
- Abstract(参考訳): 自動運転において、車両インフラ協調3dオブジェクト検出(vic3d)は、車両と交通インフラの両方からのマルチビューカメラを使用し、単一の車両の視点を超えて、道路状況の詳細なセマンティックコンテキストを備えたグローバルバンテージポイントを提供する。
VIC3Dの主な課題は2つある。
1) カメラ間の時間同期による多視点画像の融合時の固有の校正ノイズ
2)3次元空間に2次元特徴を投影する場合の情報損失
そこで本稿では,新しい3次元物体検出フレームワーク, 車内マルチビュー中間融合(vimi)を提案する。
まず、車とインフラの総合的な視点をフル活用するために、カメラの同期による校正ノイズを補正するために、インフラと車両の特徴を選択的に融合するマルチスケールクロスアテンション(MCA)モジュールを提案する。
そこで我々は,カメラパラメータを先行機能として用いたカメラ対応チャネルマスキング(CCM)モジュールを設計した。
さらに、チャネルと空間圧縮ブロックを備えた特徴圧縮(FC)モジュールを導入し、伝達特性のサイズを小さくし、効率を向上させる。
実験の結果、VIMIは新たなVIC3DデータセットであるDAIR-V2X-Cで15.61%のAP_3Dと21.44%のAP_BEVを達成した。
関連論文リスト
- CRT-Fusion: Camera, Radar, Temporal Fusion Using Motion Information for 3D Object Detection [9.509625131289429]
本稿では,レーダカメラ融合に時間情報を統合する新しいフレームワークであるCRT-Fusionを紹介する。
CRT-Fusionはレーダーカメラによる3Dオブジェクト検出のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-05T11:25:19Z) - RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。
RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。
提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文 参考訳(メタデータ) (2024-09-08T05:14:27Z) - EMIFF: Enhanced Multi-scale Image Feature Fusion for
Vehicle-Infrastructure Cooperative 3D Object Detection [23.32916754209488]
車両・インフラ協力型3D(VIC3D)物体検出における2つの大きな課題が続いている。
VIC3Dタスクのための新しいカメラベースの3D検出フレームワーク、EMIFF(Multiscale Image Feature Fusion)を提案する。
実験により、EMIFFはDAIR-V2X-Cデータセット上でSOTAを達成し、従来のアーリーフュージョン法とレイトフュージョン法を同等の伝送コストで大幅に上回った。
論文 参考訳(メタデータ) (2024-02-23T11:35:48Z) - Multi-target multi-camera vehicle tracking using transformer-based
camera link model and spatial-temporal information [29.34298951501007]
複数のカメラにまたがる車両の多目的マルチカメラ追跡は、スマートシティとインテリジェントな交通システムを開発する上で重要な応用である。
車両のMTMCTの主な課題は、同一車両のクラス内変動と異なる車両間のクラス間類似性である。
クロスカメラトラッキングを実現するために,空間的・時間的フィルタリングを用いたトランスフォーマーベースカメラリンクモデルを提案する。
論文 参考訳(メタデータ) (2023-01-18T22:27:08Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Traffic-Aware Multi-Camera Tracking of Vehicles Based on ReID and Camera
Link Model [43.850588717944916]
MTMCT(Multi-target Multi-camera Tracking)は,スマートシティアプリケーションにおいて重要な技術である。
本稿では,車載用MTMCTフレームワークを提案する。
提案するMTMCTは,CityFlowデータセットを用いて評価し,IDF1の74.93%の新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-08-22T08:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。