論文の概要: AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual
Vision Transformer
- arxiv url: http://arxiv.org/abs/2402.07680v1
- Date: Mon, 12 Feb 2024 14:40:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:06:13.396379
- Title: AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual
Vision Transformer
- Title(参考訳): AYDIV:統合視覚変換器による3次元物体検出の適応化
- Authors: Tanmoy Dam, Sanjay Bhargav Dharavath, Sameer Alam, Nimrod Lilith,
Supriyo Chakraborty and Mir Feroskhan
- Abstract要約: AYDIVは,長距離検出に特化して設計された三相アライメントプロセスを統合する新しいフレームワークである。
AYDIVのオープンデータセット(WOD)のパフォーマンスは、mAPH値(L2の難しさ)の1.24%、Argoverse2データセットのパフォーマンスはAP値の7.40%向上した。
- 参考スコア(独自算出の注目度): 5.287142970575824
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Combining LiDAR and camera data has shown potential in enhancing
short-distance object detection in autonomous driving systems. Yet, the fusion
encounters difficulties with extended distance detection due to the contrast
between LiDAR's sparse data and the dense resolution of cameras. Besides,
discrepancies in the two data representations further complicate fusion
methods. We introduce AYDIV, a novel framework integrating a tri-phase
alignment process specifically designed to enhance long-distance detection even
amidst data discrepancies. AYDIV consists of the Global Contextual Fusion
Alignment Transformer (GCFAT), which improves the extraction of camera features
and provides a deeper understanding of large-scale patterns; the Sparse Fused
Feature Attention (SFFA), which fine-tunes the fusion of LiDAR and camera
details; and the Volumetric Grid Attention (VGA) for a comprehensive spatial
data fusion. AYDIV's performance on the Waymo Open Dataset (WOD) with an
improvement of 1.24% in mAPH value(L2 difficulty) and the Argoverse2 Dataset
with a performance improvement of 7.40% in AP value demonstrates its efficacy
in comparison to other existing fusion-based methods. Our code is publicly
available at https://github.com/sanjay-810/AYDIV2
- Abstract(参考訳): LiDARとカメラデータを組み合わせることで、自律運転システムにおける短距離物体検出の強化が期待できる。
しかし、この融合は、LiDARのスパースデータとカメラの高密度解像度とのコントラストにより、長距離検出が困難になる。
さらに、2つのデータ表現の相違は融合メソッドをさらに複雑にする。
AYDIVは3相アライメントプロセスを統合した新しいフレームワークで,データ不一致時にも長距離検出の高速化を目的としている。
aydivは、グローバル・コンテクスト・フュージョン・アライメント・トランスフォーマー(gcfat)と、lidarとカメラの詳細の融合を微調整するスパース・フューズド・フィーチャー・アテンション(sffa)、包括的な空間データ融合のためのボリューム・グリッド・アテンション(vga)から構成される。
Waymo Open Dataset(WOD)におけるAYDIVのパフォーマンスは、mAPH値(L2の難しさ)が1.24%向上し、Argoverse2 Datasetのパフォーマンスが7.40%向上した。
私たちのコードはhttps://github.com/sanjay-810/AYDIV2で公開されています。
関連論文リスト
- GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection [36.37236815038332]
GAFusion と呼ばれる,LiDAR による大域的相互作用と適応融合を備えた新しい多モード3Dオブジェクト検出法を提案する。
GAFusionは73.6$%$mAPと74.9$%$NDSで最先端の3Dオブジェクト検出結果を達成する。
論文 参考訳(メタデータ) (2024-11-01T03:40:24Z) - Kaninfradet3D:A Road-side Camera-LiDAR Fusion 3D Perception Model based on Nonlinear Feature Extraction and Intrinsic Correlation [7.944126168010804]
AI支援運転の開発に伴い、エゴ車両の3D知覚タスクのための多くの手法が登場した。
グローバルな視点と広いセンシング範囲を提供する能力によって、道端の視点は発展する価値がある。
本稿では,特徴抽出と融合モジュールを最適化したKaninfradet3Dを提案する。
論文 参考訳(メタデータ) (2024-10-21T09:28:42Z) - Quantum Inverse Contextual Vision Transformers (Q-ICVT): A New Frontier in 3D Object Detection for AVs [4.378378863689719]
我々はQuantum Inverse Contextual Vision Transformer (Q-ICVT)と呼ばれる革新的な2段階融合プロセスを開発している。
このアプローチは、量子概念における断熱計算を利用して、Global Adiabatic Transformer (GAT)として知られる新しい可逆的視覚変換器を作成する。
実験の結果,Q-ICVTはL2障害に対して82.54mAPHを実現し,現状の核融合法よりも1.88%向上した。
論文 参考訳(メタデータ) (2024-08-20T21:36:57Z) - Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System [0.0]
本稿では,自律走行車認識システムにおける3次元物体検出のためのカメラとレーダーセンサの融合問題に対する新しいアプローチを提案する。
我々のアプローチは、ディープラーニングの最近の進歩に基づいており、両方のセンサーの強度を活用して物体検出性能を向上させる。
提案手法は単一センサ・ソリューションよりも優れた性能を実現し,他のトップレベルの融合手法と直接競合できることを示す。
論文 参考訳(メタデータ) (2024-04-25T12:04:31Z) - 3D Dual-Fusion: Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object
Detection [13.068266058374775]
我々は3Dデュアルフュージョンと呼ばれる新しいカメラ-LiDAR融合アーキテクチャを提案する。
提案手法は、カメラビューと3次元ボクセルビュードメインの特徴を融合させ、変形可能な注意を通して相互作用をモデル化する。
実験の結果,提案したカメラ-LiDAR融合アーキテクチャは,KITTIおよびnuScenesデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2022-11-24T11:00:50Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。