論文の概要: Kaninfradet3D:A Road-side Camera-LiDAR Fusion 3D Perception Model based on Nonlinear Feature Extraction and Intrinsic Correlation
- arxiv url: http://arxiv.org/abs/2410.15814v1
- Date: Mon, 21 Oct 2024 09:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:31.200640
- Title: Kaninfradet3D:A Road-side Camera-LiDAR Fusion 3D Perception Model based on Nonlinear Feature Extraction and Intrinsic Correlation
- Title(参考訳): Kaninfradet3D:非線形特徴抽出と固有相関に基づく道路側カメラ-LiDAR融合3次元知覚モデル
- Authors: Pei Liu, Nanfang Zheng, Yiqun Li, Junlan Chen, Ziyuan Pu,
- Abstract要約: AI支援運転の開発に伴い、エゴ車両の3D知覚タスクのための多くの手法が登場した。
グローバルな視点と広いセンシング範囲を提供する能力によって、道端の視点は発展する価値がある。
本稿では,特徴抽出と融合モジュールを最適化したKaninfradet3Dを提案する。
- 参考スコア(独自算出の注目度): 7.944126168010804
- License:
- Abstract: With the development of AI-assisted driving, numerous methods have emerged for ego-vehicle 3D perception tasks, but there has been limited research on roadside perception. With its ability to provide a global view and a broader sensing range, the roadside perspective is worth developing. LiDAR provides precise three-dimensional spatial information, while cameras offer semantic information. These two modalities are complementary in 3D detection. However, adding camera data does not increase accuracy in some studies since the information extraction and fusion procedure is not sufficiently reliable. Recently, Kolmogorov-Arnold Networks (KANs) have been proposed as replacements for MLPs, which are better suited for high-dimensional, complex data. Both the camera and the LiDAR provide high-dimensional information, and employing KANs should enhance the extraction of valuable features to produce better fusion outcomes. This paper proposes Kaninfradet3D, which optimizes the feature extraction and fusion modules. To extract features from complex high-dimensional data, the model's encoder and fuser modules were improved using KAN Layers. Cross-attention was applied to enhance feature fusion, and visual comparisons verified that camera features were more evenly integrated. This addressed the issue of camera features being abnormally concentrated, negatively impacting fusion. Compared to the benchmark, our approach shows improvements of +9.87 mAP and +10.64 mAP in the two viewpoints of the TUMTraf Intersection Dataset and an improvement of +1.40 mAP in the roadside end of the TUMTraf V2X Cooperative Perception Dataset. The results indicate that Kaninfradet3D can effectively fuse features, demonstrating the potential of applying KANs in roadside perception tasks.
- Abstract(参考訳): AI支援運転の開発に伴い、エゴ車両の3D知覚タスクのための多くの手法が登場したが、道路側での認識については限定的な研究がなされている。
グローバルな視点と広いセンシング範囲を提供する能力によって、道端の視点は発展する価値がある。
LiDARは正確な3次元空間情報を提供し、カメラは意味情報を提供する。
これら2つのモダリティは、3D検出において相補的である。
しかし,情報抽出・融合処理が十分に信頼性に乏しいため,カメラデータの追加は精度を向上しない研究もある。
近年,MLPの代替としてKAN(Kolmogorov-Arnold Networks)が提案されている。
カメラとLiDARの両方が高次元情報を提供しており、KANSAを利用することで、より優れた融合結果を得るための価値ある特徴の抽出が促進される。
本稿では,特徴抽出と融合モジュールを最適化したKaninfradet3Dを提案する。
複雑な高次元データから特徴を抽出するため、モデルのエンコーダとフーザーモジュールはkan Layersを用いて改良された。
機能融合を強化するためにクロスアテンションが適用され、視覚的比較により、カメラ機能がより均等に統合されていることが確認された。
これにより、カメラの特徴が異常に集中し、核融合に悪影響を及ぼす問題に対処した。
TUMTraf Intersection DatasetとTUMTraf V2X Cooperative Perception Datasetの道路側端における+1.40 mAPの2点において,TUMTraf Intersection Datasetと+9.87 mAPと+10.64 mAPの改善を示す。
その結果,Kaninfradet3Dは特徴を効果的に融合させ,道路側認知タスクにKansを適用する可能性を示した。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System [0.0]
本稿では,自律走行車認識システムにおける3次元物体検出のためのカメラとレーダーセンサの融合問題に対する新しいアプローチを提案する。
我々のアプローチは、ディープラーニングの最近の進歩に基づいており、両方のセンサーの強度を活用して物体検出性能を向上させる。
提案手法は単一センサ・ソリューションよりも優れた性能を実現し,他のトップレベルの融合手法と直接競合できることを示す。
論文 参考訳(メタデータ) (2024-04-25T12:04:31Z) - AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual
Vision Transformer [5.287142970575824]
AYDIVは,長距離検出に特化して設計された三相アライメントプロセスを統合する新しいフレームワークである。
AYDIVのオープンデータセット(WOD)のパフォーマンスは、mAPH値(L2の難しさ)の1.24%、Argoverse2データセットのパフォーマンスはAP値の7.40%向上した。
論文 参考訳(メタデータ) (2024-02-12T14:40:43Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View
Spatial Feature Fusion for 3D Object Detection [10.507404260449333]
本稿では,3次元物体検出のためのカメラとLiDARセンサの融合アーキテクチャを提案する。
提案した3D-CVFは,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-04-27T08:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。