論文の概要: A Pipeline and NIR-Enhanced Dataset for Parking Lot Segmentation
- arxiv url: http://arxiv.org/abs/2412.13179v1
- Date: Mon, 09 Dec 2024 00:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-22 07:36:50.132284
- Title: A Pipeline and NIR-Enhanced Dataset for Parking Lot Segmentation
- Title(参考訳): パーキングロットセグメンテーションのためのパイプラインとNIR強化データセット
- Authors: Shirin Qiam, Saipraneeth Devunuri, Lewis J. Lehe,
- Abstract要約: 本稿では、近赤外(NIR)チャネルを入力として使用するというアイデアと、衛星画像を用いた路外駐車場の予測を改善するための後処理技術を紹介する。
- 参考スコア(独自算出の注目度): 1.6044444452278062
- License:
- Abstract: Discussions of minimum parking requirement policies often include maps of parking lots, which are time consuming to construct manually. Open source datasets for such parking lots are scarce, particularly for US cities. This paper introduces the idea of using Near-Infrared (NIR) channels as input and several post-processing techniques to improve the prediction of off-street surface parking lots using satellite imagery. We constructed two datasets with 12,617 image-mask pairs each: one with 3-channel (RGB) and another with 4-channel (RGB + NIR). The datasets were used to train five deep learning models (OneFormer, Mask2Former, SegFormer, DeepLabV3, and FCN) for semantic segmentation, classifying images to differentiate between parking and non-parking pixels. Our results demonstrate that the NIR channel improved accuracy because parking lots are often surrounded by grass, even though the NIR channel needed to be upsampled from a lower resolution. Post-processing including eliminating erroneous holes, simplifying edges, and removing road and building footprints further improved the accuracy. Best model, OneFormer trained on 4-channel input and paired with post-processing techniques achieves a mean Intersection over Union (mIoU) of 84.9 percent and a pixel-wise accuracy of 96.3 percent.
- Abstract(参考訳): 最低限の駐車要件ポリシーに関する議論は、しばしば、手動で建設するのに時間がかかる駐車場の地図を含む。
このような駐車場のオープンソースデータセットは、特に米国の都市では少ない。
本稿では、近赤外(NIR)チャネルを入力として使用するというアイデアと、衛星画像を用いた路外駐車場の予測を改善するための後処理技術を紹介する。
1つは3チャンネル(RGB)、もう1つは4チャンネル(RGB + NIR)である。
データセットを使用して、セマンティックセグメンテーションのための5つのディープラーニングモデル(OneFormer、Mask2Former、SegFormer、DeepLabV3、FCN)をトレーニングし、パーキングピクセルと非パーキングピクセルを区別するために画像を分類した。
以上の結果から,NIRチャネルを低分解能からアップサンプリングする必要があるにもかかわらず,駐車場がしばしば草に囲まれているため,NIRチャネルの精度が向上したことが示唆された。
誤った穴の除去、エッジの簡素化、道路や建物のフットプリントの除去を含む後処理により精度が向上した。
最良のモデルであるOneFormerは、4チャンネル入力で訓練され、後処理技術と組み合わせることで、平均的なMIoU (Intersection over Union) は84.9%、ピクセル単位の精度は96.3%となる。
関連論文リスト
- RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing [17.118074007418123]
RoadFormer(ロードフォーマー)は、トランスフォーマーベースの道路シーン解析用データフュージョンネットワークである。
RoadFormerは、ロードシーン解析のための最先端ネットワークをすべて上回っている。
論文 参考訳(メタデータ) (2023-09-19T06:32:19Z) - SUPS: A Simulated Underground Parking Scenario Dataset for Autonomous
Driving [41.221988979184665]
SUPSは地下自動駐車のシミュレーションデータセットである。
複数のセンサーと連続したイメージに合わせた複数のセマンティックラベルを備えた複数のタスクをサポートする。
また、我々のデータセット上で、最先端のSLAMアルゴリズムと知覚モデルを評価する。
論文 参考訳(メタデータ) (2023-02-25T02:59:12Z) - X-NeRF: Explicit Neural Radiance Field for Multi-Scene 360$^{\circ} $
Insufficient RGB-D Views [49.55319833743988]
この記事では、まれに議論されるが重要な設定に焦点を当てる。複数のシーンを表現可能な1つのモデルをトレーニングできるだろうか?
不十分な見解は、非常に疎外で、ほとんど重複しない見解に言及する。
X-NeRFは,座標に基づくマッピングではなく,一般的なシーン完了過程を学習する,完全に明示的なアプローチである。
論文 参考訳(メタデータ) (2022-10-11T04:29:26Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - SPIN Road Mapper: Extracting Roads from Aerial Images via Spatial and
Interaction Space Graph Reasoning for Autonomous Driving [64.10636296274168]
道路抽出は、自律航法システムを構築するための重要なステップである。
この問題に対して単に畳み込みニューラルネットワーク(ConvNets)を使用することは、画像内の道路セグメント間の遠い依存関係をキャプチャする非効率であるため、効果がない。
本研究では,ConvNetに接続した時,特徴写像から投影された空間空間および相互作用空間上に構築されたグラフの推論を行う空間空間グラフ推論(SPIN)モジュールを提案する。
論文 参考訳(メタデータ) (2021-09-16T03:52:17Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - End-to-End Deep Structured Models for Drawing Crosswalks [98.9901717499058]
我々は、両方の入力を地上に投影し、シーンのトップダウンビューを生成します。
次に,畳み込みニューラルネットワークを用いて横断歩道の位置に関する意味的手がかりを抽出する。
大都市での横断歩道実験では96.6%の自動化が可能であった。
論文 参考訳(メタデータ) (2020-12-21T18:59:08Z) - PP-LinkNet: Improving Semantic Segmentation of High Resolution Satellite
Imagery with Multi-stage Training [4.694536172504848]
道路網と建築物のフットプリント抽出は、地図の更新、交通規制、都市計画、ライドシェアリング、災害対応テキストテットックなど、多くのアプリケーションにとって不可欠である。
論文 参考訳(メタデータ) (2020-10-14T10:23:48Z) - Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition [55.15661254072032]
自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。
まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。
次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-08T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。