論文の概要: FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion
- arxiv url: http://arxiv.org/abs/2311.03620v1
- Date: Tue, 7 Nov 2023 00:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:28:06.803520
- Title: FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion
- Title(参考訳): FusionViT:LiDAR-Camera Vision Transformer Fusionによる階層型3次元物体検出
- Authors: Xinhao Xiang, Jiawei Zhang
- Abstract要約: 本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。
我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
- 参考スコア(独自算出の注目度): 8.168523242105763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For 3D object detection, both camera and lidar have been demonstrated to be
useful sensory devices for providing complementary information about the same
scenery with data representations in different modalities, e.g., 2D RGB image
vs 3D point cloud. An effective representation learning and fusion of such
multi-modal sensor data is necessary and critical for better 3D object
detection performance. To solve the problem, in this paper, we will introduce a
novel vision transformer-based 3D object detection model, namely FusionViT.
Different from the existing 3D object detection approaches, FusionViT is a
pure-ViT based framework, which adopts a hierarchical architecture by extending
the transformer model to embed both images and point clouds for effective
representation learning. Such multi-modal data embedding representations will
be further fused together via a fusion vision transformer model prior to
feeding the learned features to the object detection head for both detection
and localization of the 3D objects in the input scenery. To demonstrate the
effectiveness of FusionViT, extensive experiments have been done on real-world
traffic object detection benchmark datasets KITTI and Waymo Open. Notably, our
FusionViT model can achieve state-of-the-art performance and outperforms not
only the existing baseline methods that merely rely on camera images or lidar
point clouds, but also the latest multi-modal image-point cloud deep fusion
approaches.
- Abstract(参考訳): 3dオブジェクト検出では、カメラとライダーの両方が、2d rgbイメージと3dポイントクラウドのような異なるモダリティのデータ表現で、同じ景色に関する補完的な情報を提供する有用なセンサーデバイスであることが示されている。
このようなマルチモーダルセンサデータの効果的な表現学習と融合は、より優れた3dオブジェクト検出性能のために必要不可欠である。
そこで本研究では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを提案する。
既存の3dオブジェクト検出アプローチとは異なり、fusionvitはpure-vitベースのフレームワークで、トランスフォーマーモデルを拡張してイメージとポイントクラウドの両方を埋め込んで効果的な表現学習を行う。
このようなマルチモーダルなデータ埋め込み表現は、学習した特徴をオブジェクト検出ヘッドに供給する前に、融合ビジョントランスフォーマーモデルを介してさらに融合し、入力シーン内の3Dオブジェクトの検出とローカライズを行う。
FusionViTの有効性を示すために、実際の交通オブジェクト検出ベンチマークデータセットであるKITTIとWaymo Openで広範な実験が行われた。
特に、fusionvitモデルは最先端のパフォーマンスを達成でき、カメライメージやlidarポイントクラウドに依存する既存のベースラインメソッドだけでなく、最新のマルチモーダルイメージポイントクラウドディープフュージョンアプローチよりも優れています。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは興味のある時点でRGB画像とLiDAR点雲の情報を融合する(略してPoI)
本手法は、ビュー変換による情報損失を防止し、計算集約的なグローバルな注意をなくす。
注目すべきは、私たちのPoIFusionは74.9%のNDSと73.4%のmAPを獲得し、マルチモーダルな3Dオブジェクト検出ベンチマークで最先端の記録を樹立したことです。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object
Detection [15.641616738865276]
本稿では,2次元RGB画像と3次元点群をセマンティックレベルで融合させて3次元物体検出タスクを増強する汎用多モード核融合フレームワークFusionPaintingを提案する。
特にFusionPaintingフレームワークは、マルチモーダルセマンティックセグメンテーションモジュール、アダプティブアテンションベースのセマンティックフュージョンモジュール、および3Dオブジェクト検出器の3つの主要モジュールで構成されている。
提案手法の有効性を,大規模なnuScenes検出ベンチマークで検証した。
論文 参考訳(メタデータ) (2021-06-23T14:53:22Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。