論文の概要: Enhancing Monocular Height Estimation via Sparse LiDAR-Guided Correction
- arxiv url: http://arxiv.org/abs/2505.06905v1
- Date: Sun, 11 May 2025 08:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.10334
- Title: Enhancing Monocular Height Estimation via Sparse LiDAR-Guided Correction
- Title(参考訳): スパースLiDAR誘導補正による単分子高さ推定の高速化
- Authors: Jian Song, Hongruixuan Chen, Naoto Yokoya,
- Abstract要約: 合成データに基づいて学習した最先端のMHEモデルについて検討する。
このモデルは,過大評価や過小評価につながる要因である影の手がかりに大きく依存していることが判明した。
本稿では,不完全な大域的LiDAR測定と疎結合な補正パイプラインを提案する。
- 参考スコア(独自算出の注目度): 18.671925059007478
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular height estimation (MHE) from very-high-resolution (VHR) remote sensing imagery via deep learning is notoriously challenging due to the lack of sufficient structural information. Conventional digital elevation models (DEMs), typically derived from airborne LiDAR or multi-view stereo, remain costly and geographically limited. Recently, models trained on synthetic data and refined through domain adaptation have shown remarkable performance in MHE, yet it remains unclear how these models make predictions or how reliable they truly are. In this paper, we investigate a state-of-the-art MHE model trained purely on synthetic data to explore where the model looks when making height predictions. Through systematic analyses, we find that the model relies heavily on shadow cues, a factor that can lead to overestimation or underestimation of heights when shadows deviate from expected norms. Furthermore, the inherent difficulty of evaluating regression tasks with the human eye underscores additional limitations of purely synthetic training. To address these issues, we propose a novel correction pipeline that integrates sparse, imperfect global LiDAR measurements (ICESat-2) with deep-learning outputs to improve local accuracy and achieve spatially consistent corrections. Our method comprises two stages: pre-processing raw ICESat-2 data, followed by a random forest-based approach to densely refine height estimates. Experiments in three representative urban regions -- Saint-Omer, Tokyo, and Sao Paulo -- reveal substantial error reductions, with mean absolute error (MAE) decreased by 22.8\%, 6.9\%, and 4.9\%, respectively. These findings highlight the critical role of shadow awareness in synthetic data-driven models and demonstrate how fusing imperfect real-world LiDAR data can bolster the robustness of MHE, paving the way for more reliable and scalable 3D mapping solutions.
- Abstract(参考訳): 超高分解能(VHR)リモートセンシング画像からの単眼身長推定(MHE)は、十分な構造情報がないために困難であることが知られている。
従来のデジタル標高モデル(DEM)は、通常は空飛ぶLiDARや多視点ステレオから派生したもので、高価で地理的に制限されている。
近年、合成データに基づいて訓練され、ドメイン適応によって改良されたモデルは、MHEにおいて顕著な性能を示したが、これらのモデルがどのように予測し、真に信頼できるかは定かではない。
本稿では,合成データに基づいて学習した最先端のMHEモデルについて検討し,高さ予測を行う際にモデルがどこに見えるかを探索する。
系統的な分析により,予測基準から外れた影の高さの過大評価や過小評価につながる要因である影の手がかりに大きく依存していることが判明した。
さらに、人間の目で回帰タスクを評価することの難しさは、純粋に合成訓練のさらなる限界を浮き彫りにしている。
これらの問題に対処するために,疎度で不完全なグローバルLiDAR測定(ICESat-2)を深層学習出力と統合し,局所精度を向上し,空間的に一貫した補正を実現する新しい補正パイプラインを提案する。
本手法は,ICESat-2データ前処理の2段階と,高度推定値の厳密化に対する森林法に基づくランダムなアプローチの2段階からなる。
サン・オマー、東京、サンパウロの3大都市での実験では、平均絶対誤差(MAE)は22.8倍、平均誤差は6.9倍、平均誤差は4.9倍と大幅に減少した。
これらの知見は、合成データ駆動モデルにおける影認識の重要な役割を強調し、不完全な現実世界のLiDARデータを融合することで、MHEの堅牢性を高め、より信頼性が高くスケーラブルな3Dマッピングソリューションを実現する方法を示す。
関連論文リスト
- MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定から距離深度を求めるための実用的スケール回復手法であるTanDepthを提示する。
提案手法は,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスフィルタシミュレーションへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。