論文の概要: Benchmarking Deep Learning Models for Aerial LiDAR Point Cloud Semantic Segmentation under Real Acquisition Conditions: A Case Study in Navarre
- arxiv url: http://arxiv.org/abs/2603.22229v1
- Date: Mon, 23 Mar 2026 17:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.812311
- Title: Benchmarking Deep Learning Models for Aerial LiDAR Point Cloud Semantic Segmentation under Real Acquisition Conditions: A Case Study in Navarre
- Title(参考訳): 実取得条件下での航空LiDAR点クラウドセマンティックセマンティックセグメンテーションのためのディープラーニングモデルのベンチマーク:ナバラを事例として
- Authors: Alex Salvatierra, José Antonio Sanz, Christian Gutiérrez, Mikel Galar,
- Abstract要約: 本研究では,KPConv,RandLA-Net,Superpoint Transformer,Point Transformer V3の4つの代表的なディープラーニングモデルを比較した。
KPConvはクラス間の一貫したパフォーマンスで最高IoU(78.51%)に達する。
- 参考スコア(独自算出の注目度): 2.6663179280715297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning have significantly improved 3D semantic segmentation, but most models focus on indoor or terrestrial datasets. Their behavior under real aerial acquisition conditions remains insufficiently explored, and although a few studies have addressed similar scenarios, they differ in dataset design, acquisition conditions, and model selection. To address this gap, we conduct an experimental benchmark evaluating several state-of-the-art architectures on a large-scale aerial LiDAR dataset acquired under operational flight conditions in Navarre, Spain, covering heterogeneous urban, rural, and industrial landscapes. This study compares four representative deep learning models, including KPConv, RandLA-Net, Superpoint Transformer, and Point Transformer V3, across five semantic classes commonly found in airborne surveys, such as ground, vegetation, buildings, and vehicles, highlighting the inherent challenges of class imbalance and geometric variability in aerial data. Results show that all tested models achieve high overall accuracy exceeding 93%, with KPConv attaining the highest mean IoU (78.51%) through consistent performance across classes, particularly on challenging and underrepresented categories. Point Transformer V3 demonstrates superior performance on the underrepresented vehicle class (75.11% IoU), while Superpoint Transformer and RandLA-Net trade off segmentation robustness for computational efficiency.
- Abstract(参考訳): ディープラーニングの最近の進歩は、3Dセマンティックセグメンテーションを著しく改善しているが、ほとんどのモデルは屋内または地上のデータセットに焦点を当てている。
実際の空中取得条件下でのそれらの挙動は十分に解明されておらず、いくつかの研究では同様のシナリオに対処しているが、データセットの設計、取得条件、モデル選択が異なる。
このギャップに対処するために、スペインのナバラで運用飛行条件下で取得された大規模航空LiDARデータセット上で、異種都市、農村、産業の景観を網羅した、最先端のいくつかのアーキテクチャを実験的に評価する。
本研究では,KPConv,RandLA-Net,Superpoint Transformer,Point Transformer V3の4つの代表的なディープラーニングモデルを比較した。
KPConvはクラス間の一貫したパフォーマンス、特に挑戦的で表現不足なカテゴリにおいて、最も高いIoU(78.51%)に達している。
ポイントトランスフォーマーV3は、表現不足の車種(75.11% IoU)において優れた性能を示し、スーパーポイントトランスフォーマーとRandLA-Netは、計算効率のためにセグメンテーションロバスト性を交換する。
関連論文リスト
- Point Cloud Segmentation of Agricultural Vehicles using 3D Gaussian Splatting [12.323236593352698]
この研究は、現実的な合成データを生成するための新しいパイプラインを導入することを目的としている。
我々はジェネリックモデルではなく、複数の農業車両の3D資産を生成する。
我々は、合成データのみをトレーニングし、検証することにより、PointNet++、Point Transformer V3、OACNNなどのセグメンテーションモデルに対する合成データの影響を評価する。
論文 参考訳(メタデータ) (2025-06-05T13:19:27Z) - SPPSFormer: High-quality Superpoint-based Transformer for Roof Plane Instance Segmentation from Point Clouds [14.67024375365087]
変圧器は、ポイントクラウドの屋根面のインスタンスセグメンテーションにはほとんど使われていない。
既存のスーパーポイント変換器は、低品質のスーパーポイントを使用するため、限られた性能に悩まされる。
高品質なスーパーポイントが満足すべき2つの基準を確立し、それに対応する2段階のスーパーポイント生成プロセスを導入する。
論文 参考訳(メタデータ) (2025-05-30T11:23:16Z) - Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery [16.522544814241495]
本研究は、自動運転車(AV)のHDマップの必要性に対処するものである。
地球観測データは地図作成に有用な資源を提供するが、道路線抽出のための特別なモデルはまだリモートセンシングでは未開発である。
本研究では,高精細リモートセンシング画像から道路路面マーキング抽出のための基礎的深層学習に基づくセマンティックセマンティックセマンティクスモデルを比較した。
論文 参考訳(メタデータ) (2024-10-08T06:24:15Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。