論文の概要: PEFT-DML: Parameter-Efficient Fine-Tuning Deep Metric Learning for Robust Multi-Modal 3D Object Detection in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.00060v1
- Date: Sun, 23 Nov 2025 03:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.029143
- Title: PEFT-DML: Parameter-Efficient Fine-Tuning Deep Metric Learning for Robust Multi-Modal 3D Object Detection in Autonomous Driving
- Title(参考訳): PEFT-DML: 自律運転におけるロバストなマルチモーダル3次元物体検出のためのパラメータ効率の良い微調整深度学習
- Authors: Abdolazim Rezaei, Mehdi Sookhak,
- Abstract要約: PEFT-DMLは、自律運転における堅牢な3次元物体検出のためのパラメータ効率の高いディープラーニングフレームワークである。
Low-Rank Adaptation (LoRA)とアダプタ層を統合することで、PEFT-DMLはトレーニング効率が大幅に向上する。
ベンチマーク nuScenes の実験では精度が優れている。
- 参考スコア(独自算出の注目度): 0.979731979071071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces PEFT-DML, a parameter-efficient deep metric learning framework for robust multi-modal 3D object detection in autonomous driving. Unlike conventional models that assume fixed sensor availability, PEFT-DML maps diverse modalities (LiDAR, radar, camera, IMU, GNSS) into a shared latent space, enabling reliable detection even under sensor dropout or unseen modality class combinations. By integrating Low-Rank Adaptation (LoRA) and adapter layers, PEFT-DML achieves significant training efficiency while enhancing robustness to fast motion, weather variability, and domain shifts. Experiments on benchmarks nuScenes demonstrate superior accuracy.
- Abstract(参考訳): 本研究では,自律運転における頑健なマルチモーダル3次元物体検出のためのパラメータ効率の高い深度学習フレームワークPEFT-DMLを紹介する。
センサーの可用性を仮定する従来のモデルとは異なり、PEFT-DMLは様々なモダリティ(LiDAR、レーダー、カメラ、IMU、GNSS)を共有潜在空間にマッピングし、センサーのドロップアウトや見えないモダリティのクラスの組み合わせでも信頼性の高い検出を可能にする。
Low-Rank Adaptation (LoRA) とアダプタ層を統合することで、PEFT-DMLは高速動作、気象変動、ドメインシフトに対する堅牢性を高めながら、トレーニング効率を大幅に向上する。
ベンチマーク nuScenes の実験では精度が優れている。
関連論文リスト
- DIMM: Decoupled Multi-hierarchy Kalman Filter for 3D Object Tracking [50.038098341549095]
状態推定は、高い操作性を持つ3次元物体追跡において困難である。
本稿では,各方向の異なる動きモデルから推定される推定を効果的に組み合わせる新しいフレームワークであるDIMMを提案する。
DIMMは既存の状態推定手法のトラッキング精度を31.61%99.23%向上させる。
論文 参考訳(メタデータ) (2025-05-18T10:12:41Z) - OptiPMB: Enhancing 3D Multi-Object Tracking with Optimized Poisson Multi-Bernoulli Filtering [16.047505930360202]
最適化されたPoisson Multi-Bernoulliフィルタを用いた新しい RFS ベースの 3D MOT 法であるOptiPMB を提案する。
OptiPMBは,最先端手法と比較して,トラッキング精度が優れていることを示す。
論文 参考訳(メタデータ) (2025-03-17T09:24:26Z) - Efficient Multimodal 3D Object Detector via Instance-Level Contrastive Distillation [17.634678949648208]
提案したICDフレームワークとCLFM(Cross Linear Attention Fusion Module)を組み込んだ高速かつ効果的なマルチモーダル3Dオブジェクト検出器を提案する。
我々の3Dオブジェクト検出器は、より優れた効率を実現しつつ、最先端(SOTA)手法より優れています。
論文 参考訳(メタデータ) (2025-03-17T08:26:11Z) - Easy-Poly: A Easy Polyhedral Framework For 3D Multi-Object Tracking [23.40561503456164]
複数のオブジェクトカテゴリを対象としたリアルタイムフィルタベースの3DMOTフレームワークであるEasy-Polyを提案する。
結果は,Poly-MOTやFast-Polyといった最先端の手法よりも優れていることを示す。
これらの知見は、多様なシナリオにおけるEasy-Polyの適応性と堅牢性を強調している。
論文 参考訳(メタデータ) (2025-02-25T04:01:25Z) - Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-07-27T03:21:44Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - ShaSTA-Fuse: Camera-LiDAR Sensor Fusion to Model Shape and
Spatio-Temporal Affinities for 3D Multi-Object Tracking [26.976216624424385]
3Dマルチオブジェクトトラッキング(MOT)は、自律移動エージェントが安全にシーンをナビゲートするために不可欠である。
我々は,カメラとLiDARセンサ情報を融合した3DMOTフレームワークの開発を目指している。
論文 参考訳(メタデータ) (2023-10-04T02:17:59Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。