Fugu-MT 論文翻訳(概要): PF3Det: A Prompted Foundation Feature Assisted Visual LiDAR 3D Detector

論文の概要: PF3Det: A Prompted Foundation Feature Assisted Visual LiDAR 3D Detector

arxiv url: http://arxiv.org/abs/2504.03563v1
Date: Fri, 04 Apr 2025 16:11:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-14 16:11:43.620936
Title: PF3Det: A Prompted Foundation Feature Assisted Visual LiDAR 3D Detector
Title（参考訳）: PF3Det:Visual LiDAR 3Dディテクターを補助するプロンプテッドファンデーション機能
Authors: Kaidong Li, Tianxiao Zhang, Kuan-Chuan Peng, Guanghui Wang,
Abstract要約: 基礎モデルエンコーダとソフトプロンプトを統合したPF3Det(Prompted Foundational 3D Detector)を提案する。 PF3Detは、限られたトレーニングデータの下で最先端の結果を達成し、NDSを1.19%改善し、nuScenesデータセットでmAPを2.42%改善した。
参考スコア（独自算出の注目度）: 15.8414696386661
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D object detection is crucial for autonomous driving, leveraging both LiDAR point clouds for precise depth information and camera images for rich semantic information. Therefore, the multi-modal methods that combine both modalities offer more robust detection results. However, efficiently fusing LiDAR points and images remains challenging due to the domain gaps. In addition, the performance of many models is limited by the amount of high quality labeled data, which is expensive to create. The recent advances in foundation models, which use large-scale pre-training on different modalities, enable better multi-modal fusion. Combining the prompt engineering techniques for efficient training, we propose the Prompted Foundational 3D Detector (PF3Det), which integrates foundation model encoders and soft prompts to enhance LiDAR-camera feature fusion. PF3Det achieves the state-of-the-art results under limited training data, improving NDS by 1.19% and mAP by 2.42% on the nuScenes dataset, demonstrating its efficiency in 3D detection.
Abstract（参考訳）: 3Dオブジェクト検出は、LiDARポイントクラウドを正確な深度情報に、カメライメージをリッチなセマンティック情報に活用することで、自律運転に不可欠である。したがって、両方のモダリティを組み合わせるマルチモーダル法は、より堅牢な検出結果を提供する。しかし、LiDARポイントとイメージを効率的に融合させることは、ドメインギャップのため、依然として困難である。さらに、多くのモデルの性能は高品質なラベル付きデータの量によって制限されるため、作成にはコストがかかる。近年のファンデーションモデルの進歩は、異なるモードでの大規模事前学習を用いて、より優れたマルチモーダル融合を実現している。効率的なトレーニングのための迅速な技術技術を組み合わせて,基礎モデルエンコーダとソフトプロンプトを統合したPF3Det(Prompted Foundational 3D Detector)を提案する。 PF3Detは、限られたトレーニングデータの下で最先端の結果を達成し、NDSを1.19%改善し、nuScenesデータセットでmAPを2.42%改善し、3D検出の効率を実証する。

関連論文リスト

LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文参考訳（メタデータ） (2024-10-09T22:57:47Z)
4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文参考訳（メタデータ） (2024-07-08T17:59:54Z)
Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。 3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文参考訳（メタデータ） (2024-04-10T03:54:53Z)
ShaSTA-Fuse: Camera-LiDAR Sensor Fusion to Model Shape and Spatio-Temporal Affinities for 3D Multi-Object Tracking [26.976216624424385]
3Dマルチオブジェクトトラッキング(MOT)は、自律移動エージェントが安全にシーンをナビゲートするために不可欠である。我々は,カメラとLiDARセンサ情報を融合した3DMOTフレームワークの開発を目指している。
論文参考訳（メタデータ） (2023-10-04T02:17:59Z)
Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文参考訳（メタデータ） (2022-12-10T10:54:41Z)
FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。 We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。 FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文参考訳（メタデータ） (2022-09-22T02:07:25Z)
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T12:29:29Z)
Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。 nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文参考訳（メタデータ） (2022-06-30T01:44:30Z)
Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。我々は、最先端の核融合法を初めてベンチマークした。
論文参考訳（メタデータ） (2022-05-30T09:35:37Z)
Dense Voxel Fusion for 3D Object Detection [10.717415797194896]
ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
論文参考訳（メタデータ） (2022-03-02T04:51:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。