論文の概要: VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2312.16141v1
- Date: Tue, 26 Dec 2023 18:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 14:48:11.245013
- Title: VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection
- Title(参考訳): VirtualPainting:3次元物体検出のための仮想点と距離認識データ拡張による空間認識
- Authors: Sudip Dhakal, Dominic Carrillo, Deyuan Qu, Michael Nutt, Qing Yang,
Song Fu
- Abstract要約: 本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 3.5259183508202976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, there has been a notable surge in multimodal approaches that
decorates raw LiDAR point clouds with camera-derived features to improve object
detection performance. However, we found that these methods still grapple with
the inherent sparsity of LiDAR point cloud data, primarily because fewer points
are enriched with camera-derived features for sparsely distributed objects. We
present an innovative approach that involves the generation of virtual LiDAR
points using camera images and enhancing these virtual points with semantic
labels obtained from image-based segmentation networks to tackle this issue and
facilitate the detection of sparsely distributed objects, particularly those
that are occluded or distant. Furthermore, we integrate a distance aware data
augmentation (DADA) technique to enhance the models capability to recognize
these sparsely distributed objects by generating specialized training samples.
Our approach offers a versatile solution that can be seamlessly integrated into
various 3D frameworks and 2D semantic segmentation methods, resulting in
significantly improved overall detection accuracy. Evaluation on the KITTI and
nuScenes datasets demonstrates substantial enhancements in both 3D and birds
eye view (BEV) detection benchmarks
- Abstract(参考訳): 近年、オブジェクト検出性能を向上させるために、生のLiDAR点雲とカメラ固有の特徴を装飾するマルチモーダルアプローチが顕著に急増している。
しかし、この手法はlidar pointのクラウドデータの本質的なスパース性に依然として不満を抱いていることが分かりました。
本稿では,カメラ画像を用いた仮想ライダーポイントの生成と,画像に基づくセグメンテーションネットワークから得られる意味ラベルによる仮想ポイントの強化を行い,この問題に取り組み,分散した物体,特に遠方の物体の検出を容易にする革新的なアプローチを提案する。
さらに,dada ( distance aware data augmentation) 技術を統合し,特殊なトレーニングサンプルを生成することにより,分散オブジェクトを識別するモデルの能力を高める。
提案手法は,様々な3Dフレームワークと2Dセマンティックセマンティックセグメンテーション手法にシームレスに統合可能な汎用的ソリューションを提供する。
KITTIおよびnuScenesデータセットの評価は、3Dおよび鳥の目視(BEV)検出ベンチマークにおいて大幅に改善されていることを示す
関連論文リスト
- Sparse-to-Dense LiDAR Point Generation by LiDAR-Camera Fusion for 3D Object Detection [9.076003184833557]
2D画像特徴を融合させてLiDARポイントクラウドデータを再構成する新しいフレームワークであるLiDAR-Camera Augmentation Network (LCANet)を提案する。
LCANetは、画像特徴を3D空間に投影し、意味情報をポイントクラウドデータに統合することで、LiDARセンサーからのデータを融合する。
この融合は、しばしばスパースポイントで表される長距離物体の検出におけるLiDARの弱点を効果的に補う。
論文 参考訳(メタデータ) (2024-09-23T13:03:31Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。