論文の概要: Enhancing LiDAR Point Features with Foundation Model Priors for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2507.13899v1
- Date: Fri, 18 Jul 2025 13:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.294662
- Title: Enhancing LiDAR Point Features with Foundation Model Priors for 3D Object Detection
- Title(参考訳): 3次元物体検出のための基礎モデル優先によるLiDAR点特徴の強調
- Authors: Yujian Mo, Yan Wu, Junqiao Zhao, Jijun Wang, Yinghao Hu, Jun Yan,
- Abstract要約: 本稿では,DepthAnything が予測した深度予測について紹介する。
これらのプリエントは、各ポイントの表現を豊かにするオリジナルのLiDAR属性と融合する。
KITTIベンチマーク実験により,本手法は検出精度を常に向上することが示された。
- 参考スコア(独自算出の注目度): 5.6537425944368405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in foundation models have opened up new possibilities for enhancing 3D perception. In particular, DepthAnything offers dense and reliable geometric priors from monocular RGB images, which can complement sparse LiDAR data in autonomous driving scenarios. However, such priors remain underutilized in LiDAR-based 3D object detection. In this paper, we address the limited expressiveness of raw LiDAR point features, especially the weak discriminative capability of the reflectance attribute, by introducing depth priors predicted by DepthAnything. These priors are fused with the original LiDAR attributes to enrich each point's representation. To leverage the enhanced point features, we propose a point-wise feature extraction module. Then, a Dual-Path RoI feature extraction framework is employed, comprising a voxel-based branch for global semantic context and a point-based branch for fine-grained structural details. To effectively integrate the complementary RoI features, we introduce a bidirectional gated RoI feature fusion module that balances global and local cues. Extensive experiments on the KITTI benchmark show that our method consistently improves detection accuracy, demonstrating the value of incorporating visual foundation model priors into LiDAR-based 3D object detection.
- Abstract(参考訳): 基礎モデルの最近の進歩は、3D知覚を高める新しい可能性を開く。
特にDepthAnythingは、単眼のRGB画像から高密度で信頼性の高い幾何学的先行情報を提供する。
しかし、これらの先行はLiDARベースの3Dオブジェクト検出では未利用のままである。
本稿では,生のLiDAR点の特徴,特に反射率特性の弱い識別能力について,DepthAnythingにより予測される深度事前を導入することで,限定的な表現性に対処する。
これらの先行は元のLiDAR属性と融合し、各ポイントの表現を豊かにする。
拡張された点特徴を利用するために,ポイントワイドな特徴抽出モジュールを提案する。
次に、グローバルセマンティックコンテキストのためのvoxel-based branchと、きめ細かい構造詳細のためのポイントベースブランチからなるDual-Path RoI機能抽出フレームワークを採用する。
相補的なRoI特徴を効果的に統合するために,グローバルおよびローカルなキューのバランスをとる双方向ゲート型RoI特徴融合モジュールを導入する。
KITTIベンチマークの大規模な実験により,本手法は検出精度を常に向上し,LiDARに基づく3Dオブジェクト検出に視覚基礎モデルを導入する価値が示された。
関連論文リスト
- LDRFusion: A LiDAR-Dominant multimodal refinement framework for 3D object detection [5.6537425944368405]
既存のLiDAR-Camera融合法は3次元物体検出において大きな成果を上げている。
我々は,LDRFusionを提案する。LDRFusionは,マルチセンサフュージョンのための新しい2段階改良フレームワークである。
当社のフレームワークは,複数のカテゴリと難易度をまたいだパフォーマンスを継続的に達成しています。
論文 参考訳(メタデータ) (2025-07-22T04:35:52Z) - MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection [65.84604846389624]
我々は,より強力な単一点制御OODフレームワークであるPointOBB-v3を提案する。
追加のプリミティブなしで擬似回転ボックスを生成し、エンドツーエンドのパラダイムをサポートする。
本手法は従来の最先端手法と比較して3.56%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-01-23T18:18:15Z) - PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR
Point Clouds [29.15589024703907]
本稿では,計算資源の割り当ての観点から,局所的な点集合体を再考する。
最も単純な柱ベースのモデルは、精度とレイテンシの両方を考慮して驚くほどよく機能することがわかった。
本研究は,3次元物体検出の高性能化のために,詳細な幾何学的モデリングが不可欠である,という一般的な直観に挑戦する。
論文 参考訳(メタデータ) (2023-05-08T17:59:14Z) - LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields [112.62936571539232]
本稿では,LiDARセンサのための新しいビュー合成手法を提案する。
スタイルトランスファーニューラルネットワークを用いた従来のモデルベースLiDARシミュレータは、新しいビューのレンダリングに応用できる。
ニューラル放射場(NeRF)を用いて幾何学と3D点の属性の連成学習を容易にする。
論文 参考訳(メタデータ) (2023-04-20T15:44:37Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - SIENet: Spatial Information Enhancement Network for 3D Object Detection
from Point Cloud [20.84329063509459]
LiDARベースの3Dオブジェクト検出は、自動運転車に大きな影響を与える。
LiDARの固有特性の制限により、センサーから遠く離れた物体において、より少ない点が収集される。
そこで本研究では,SIENetという2段階の3次元物体検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T07:45:09Z) - CAE-LO: LiDAR Odometry Leveraging Fully Unsupervised Convolutional
Auto-Encoder for Interest Point Detection and Feature Description [10.73965992177754]
2D CAEを用いた球面リングデータから利得点を検出し、3D CAEを用いたマルチレゾリューションボクセルモデルから特徴点を抽出する、完全に教師なしコナールオートエンコーダベースのLiDARオドメトリー(CAE-LO)を提案する。
1)KITTIデータセットに基づく実験により、未構造化シナリオにおける一致の成功率を改善するために、より局所的な詳細を抽出できることが示され、我々の特徴は、マッチング不整合比で50%以上、最先端の成果を上げている。
論文 参考訳(メタデータ) (2020-01-06T01:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。