論文の概要: LDRFusion: A LiDAR-Dominant multimodal refinement framework for 3D object detection
- arxiv url: http://arxiv.org/abs/2507.16224v1
- Date: Tue, 22 Jul 2025 04:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.964953
- Title: LDRFusion: A LiDAR-Dominant multimodal refinement framework for 3D object detection
- Title(参考訳): LDRFusion:3次元物体検出のためのLiDAR-Dominant Multimodal refinementフレームワーク
- Authors: Jijun Wang, Yan Wu, Yujian Mo, Junqiao Zhao, Jun Yan, Yinghao Hu,
- Abstract要約: 既存のLiDAR-Camera融合法は3次元物体検出において大きな成果を上げている。
我々は,LDRFusionを提案する。LDRFusionは,マルチセンサフュージョンのための新しい2段階改良フレームワークである。
当社のフレームワークは,複数のカテゴリと難易度をまたいだパフォーマンスを継続的に達成しています。
- 参考スコア(独自算出の注目度): 5.6537425944368405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing LiDAR-Camera fusion methods have achieved strong results in 3D object detection. To address the sparsity of point clouds, previous approaches typically construct spatial pseudo point clouds via depth completion as auxiliary input and adopts a proposal-refinement framework to generate detection results. However, introducing pseudo points inevitably brings noise, potentially resulting in inaccurate predictions. Considering the differing roles and reliability levels of each modality, we propose LDRFusion, a novel Lidar-dominant two-stage refinement framework for multi-sensor fusion. The first stage soley relies on LiDAR to produce accurately localized proposals, followed by a second stage where pseudo point clouds are incorporated to detect challenging instances. The instance-level results from both stages are subsequently merged. To further enhance the representation of local structures in pseudo point clouds, we present a hierarchical pseudo point residual encoding module, which encodes neighborhood sets using both feature and positional residuals. Experiments on the KITTI dataset demonstrate that our framework consistently achieves strong performance across multiple categories and difficulty levels.
- Abstract(参考訳): 既存のLiDAR-Camera融合法は3次元物体検出において大きな成果を上げている。
点雲の空間性に対処するため、従来の手法では、奥行き補完を補助的な入力として空間的擬似点雲を構築し、検出結果を生成するための提案補充フレームワークを採用している。
しかし、疑似点の導入は必然的にノイズをもたらし、不正確な予測をもたらす可能性がある。
両モードの異なる役割と信頼性を考慮し,LDRFusionを提案する。
第1段階のソリーは、正確にローカライズされた提案を生成するためにLiDARに依存し、続いて、疑似ポイントクラウドを組み込んで困難なインスタンスを検出する第2段階が続く。
その後、両方のステージのインスタンスレベルの結果がマージされる。
擬似点雲における局所構造の表現をさらに強化するために,特徴的残差と位置的残差の両方を用いて近傍集合を符号化する階層的擬似点残差符号化モジュールを提案する。
KITTIデータセットの実験は、我々のフレームワークが複数のカテゴリと難易度で一貫して強力なパフォーマンスを実現していることを示している。
関連論文リスト
- Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [4.196626042312499]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - SEED: A Simple and Effective 3D DETR in Point Clouds [72.74016394325675]
ポイントクラウドの分散度が高く,不均一な分布のため,主な課題は困難である,と我々は主張する。
点雲から3次元物体を検出するための簡便で効果的な3次元DETR法(SEED)を提案する。
論文 参考訳(メタデータ) (2024-07-15T14:21:07Z) - Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Deep Point Cloud Reconstruction [74.694733918351]
3Dスキャンから得られる点雲は、しばしばスパース、ノイズ、不規則である。
これらの問題に対処するため、最近の研究は別々に行われ、不正確な点雲を密度化、復調し、完全な不正確な点雲を観測している。
本研究では,1) 初期密度化とデノナイズのための3次元スパース集積時間ガラスネットワーク,2) 離散ボクセルを3Dポイントに変換するトランスフォーマーによる改良,の2段階からなる深部点雲再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T07:53:28Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。