論文の概要: Height-Guided Projection Reparameterization for Camera-LiDAR Occupancy
- arxiv url: http://arxiv.org/abs/2605.05072v2
- Date: Mon, 11 May 2026 03:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 19:24:01.249489
- Title: Height-Guided Projection Reparameterization for Camera-LiDAR Occupancy
- Title(参考訳): カメラLiDAR機能のための高さ誘導プロジェクションパラメータ化
- Authors: Yuan Wu, Zhiqiang Yan, Jiawei Lian, Zhengxue Wang, Jian Yang,
- Abstract要約: HiPRはHeight-Guided Projection Reパラメータ化を備えたカメラLiDAR占有フレームワークである。
HiPRは、リアルタイム推論を維持しながら、既存の最先端メソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 19.450674475241353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction aims to infer dense, voxel-wise scene semantics from sensor observations, where the 2D-to-3D view transformation serves as a crucial step in bridging image features and volumetric representations. Most previous methods rely on a fixed projection space, where 3D reference points are uniformly sampled along pillars. However, such sampling struggles to capture the sparsity and height variations of real-world scenes, leading to ambiguous correspondences and unreliable feature aggregation. To address these challenges, we propose HiPR, a camera-LiDAR occupancy framework with Height-Guided Projection Reparameterization. HiPR first encodes LiDAR into a BEV height map to capture the maximum height of the point cloud. HiPR then adjusts the sampling range of each pillar using the height prior, enabling adaptive reparameterization of the projection space. As a result, the projected points are redistributed into geometrically meaningful regions rather than fixed ranges. Meanwhile, we mask out the invalid parts of the height map to avoid misleading the feature aggregation. In addition, to alleviate the training instability caused by noisy LiDAR-derived heights, we introduce a training-time Progressive Height Conditioning strategy, which gradually transitions the conditioning signal from ground-truth heights to LiDAR heights. Extensive experiments demonstrate that HiPR consistently outperforms existing state-of-the-art methods while maintaining real-time inference. The code and pretrained models can be found at https://github.com/yanzq95/HiPR.
- Abstract(参考訳): 3次元占有予測は,2次元から3次元の視点変換が画像の特徴や体積表現をブリッジする重要なステップとなるセンサ観測から,密度の高いボクセル的なシーンセマンティクスを推測することを目的としている。
従来の手法のほとんどは固定射影空間に依存しており、3D参照点は柱に沿って一様にサンプリングされる。
しかし、このようなサンプリングは現実世界のシーンの空間と高さの変化を捉えようと苦労し、あいまいな対応と信頼性の低い特徴集約に繋がった。
これらの課題に対処するため,ハイトガイドプロジェクション・リパラメータによるカメラ・LiDAR占有フレームワークであるHiPRを提案する。
HiPRはまずLiDARをBEV高さマップにエンコードし、点雲の最大高さをキャプチャする。
HiPRは、各柱のサンプリング範囲を予め設定し、投影空間の適応的な再パラメータ化を可能にする。
その結果、投影された点は固定範囲ではなく幾何学的に意味のある領域に再分配される。
一方、高さマップの無効部分をマスクして、特徴集合の誤解を招くのを避ける。
さらに,LiDAR高の騒音によるトレーニング不安定性を軽減するため,地上高からLiDAR高の条件信号の段階的移行を行う訓練時間プログレッシブ・ハイト・コンディショニング・ストラテジーを導入する。
大規模な実験により、HiPRはリアルタイム推論を維持しながら既存の最先端の手法を一貫して上回っていることが示された。
コードと事前訓練されたモデルはhttps://github.com/yanzq95/HiPR.comで見ることができる。
関連論文リスト
- RegFormer++: An Efficient Large-Scale 3D LiDAR Point Registration Network with Projection-Aware 2D Transformer [71.59462491691819]
本稿では,大規模クラウドアライメントを実現するために,RegFormer++と呼ばれる新しいエンド・ツー・エンド差動トランスフォーマネットワークを提案する。
元の3D座標を2次元投影位置に充填するため、設計したトランスフォーマーは2次元処理における高効率と3次元幾何情報からの精度の両面から恩恵を受けることができる。
KITTI、NuScenes、Argoverseのデータセットを用いた実験により、我々のモデルは精度と効率の両面で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-03-15T09:03:10Z) - SC-Lane: Slope-aware and Consistent Road Height Estimation Framework for 3D Lane Detection [6.35342543540348]
我々は3次元レーン検出のための新しい傾斜認識と時間的に一貫した高さマップ推定フレームワークであるSC-Laneを紹介した。
SC-Lane は斜面固有の高さ特徴の融合を適応的に決定し、多様な道路測地に対するロバスト性を向上させる。
OpenLaneベンチマークの大規模な実験により、SC-Laneは高さ推定と3次元レーン検出の両方を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-08-14T07:34:56Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction [28.071645239063553]
本稿では,DHD(Deep Height Decoupling,ディープハイトデカップリング,Deep Height Decoupling,DHD)について述べる。
一般的なOcc3D-nuScenesベンチマークでは,最小入力フレームでも最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-12T12:12:19Z) - HeightLane: BEV Heightmap guided 3D Lane Detection [6.940660861207046]
単分子画像からの正確な3次元車線検出は、深さのあいまいさと不完全な地盤モデリングによる重要な課題を示す。
本研究は,マルチスロープ仮定に基づいてアンカーを作成することにより,単眼画像から高さマップを予測する革新的な手法であるHeightLaneを紹介する。
HeightLaneは、Fスコアの観点から最先端のパフォーマンスを実現し、現実世界のアプリケーションにおけるその可能性を強調している。
論文 参考訳(メタデータ) (2024-08-15T17:14:57Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Height estimation from single aerial images using a deep ordinal
regression network [12.991266182762597]
単体画像からの高度推定の曖昧で未解決な問題に対処する。
深層学習、特に深層畳み込みニューラルネットワーク(CNN)の成功により、いくつかの研究は、単一の空中画像から高さ情報を推定することを提案した。
本稿では,高さ値を間隔増加間隔に分割し,回帰問題を順序回帰問題に変換することを提案する。
論文 参考訳(メタデータ) (2020-06-04T12:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。