論文の概要: Feature-Augmented Deep Networks for Multiscale Building Segmentation in High-Resolution UAV and Satellite Imagery
- arxiv url: http://arxiv.org/abs/2505.05321v1
- Date: Thu, 08 May 2025 15:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.931208
- Title: Feature-Augmented Deep Networks for Multiscale Building Segmentation in High-Resolution UAV and Satellite Imagery
- Title(参考訳): 高分解能UAV・衛星画像におけるマルチスケール建物セグメンテーションのための機能強化ディープネットワーク
- Authors: Chintan B. Maniyar, Minakshi Kumar, Gengchen Mai,
- Abstract要約: 本稿では,RGBの航空画像と衛星画像を用いた大規模建物セグメンテーションのための総合的なディープラーニングフレームワークを提案する。
我々のモデルは96.5%の精度、F1スコアは0.86、Intersection over Union(IoU)は0.80で、既存のRGBベースのベンチマークを上回っている。
- 参考スコア(独自算出の注目度): 1.5417562870196788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate building segmentation from high-resolution RGB imagery remains challenging due to spectral similarity with non-building features, shadows, and irregular building geometries. In this study, we present a comprehensive deep learning framework for multiscale building segmentation using RGB aerial and satellite imagery with spatial resolutions ranging from 0.4m to 2.7m. We curate a diverse, multi-sensor dataset and introduce feature-augmented inputs by deriving secondary representations including Principal Component Analysis (PCA), Visible Difference Vegetation Index (VDVI), Morphological Building Index (MBI), and Sobel edge filters from RGB channels. These features guide a Res-U-Net architecture in learning complex spatial patterns more effectively. We also propose training policies incorporating layer freezing, cyclical learning rates, and SuperConvergence to reduce training time and resource usage. Evaluated on a held-out WorldView-3 image, our model achieves an overall accuracy of 96.5%, an F1-score of 0.86, and an Intersection over Union (IoU) of 0.80, outperforming existing RGB-based benchmarks. This study demonstrates the effectiveness of combining multi-resolution imagery, feature augmentation, and optimized training strategies for robust building segmentation in remote sensing applications.
- Abstract(参考訳): 高解像度のRGB画像からの正確なビルのセグメンテーションは、非建築の特徴、影、不規則なビルディングジオメトリとスペクトル的類似性のため、依然として困難である。
本研究では, 空間解像度0.4mから2.7mのRGB空中・衛星画像を用いたマルチスケールビルディングセグメンテーションのための包括的ディープラーニングフレームワークを提案する。
我々は多種多様なマルチセンサデータセットをキュレートし、主成分分析(PCA)、可視差植生指数(VDVI)、モルフォロジービルディング指数(MBI)、RGBチャネルからのソベルエッジフィルタなどの二次表現を導出することで特徴拡張された入力を導入する。
これらの特徴は、複雑な空間パターンをより効率的に学習する上で、Res-U-Netアーキテクチャを導く。
また, 凍結, 循環学習率, スーパーコンバージェンスを取り入れたトレーニングポリシーを提案し, トレーニング時間と資源使用量を削減する。
保持されたWorldView-3画像に基づいて、我々のモデルは96.5%、F1スコア0.86、Intersection over Union(IoU)0.80を達成し、既存のRGBベースのベンチマークを上回った。
本研究では,マルチレゾリューション画像と機能拡張と,リモートセンシングアプリケーションにおけるロバストなビルディングセグメンテーションのための最適トレーニング戦略を組み合わせることの有効性を実証する。
関連論文リスト
- Unleashing Correlation and Continuity for Hyperspectral Reconstruction from RGB Images [64.80875911446937]
RGB画像からのHSI再構成のための相関連続性ネットワーク(CCNet)を提案する。
局所スペクトルの相関について,GrSCM(Group-wise Spectral correlation Modeling)モジュールを紹介する。
グローバルスペクトルの連続性のために、我々はNeSCMモジュールを設計する。
論文 参考訳(メタデータ) (2025-01-02T15:14:40Z) - Efficient Semantic Splatting for Remote Sensing Multi-view Segmentation [29.621022493810088]
本稿では,ガウススプラッティングに基づくセマンティックスプラッティング手法を提案する。
提案手法は,RGB画像とセマンティックセグメンテーション結果を同時にレンダリングし,画像平面上に点雲のRGB属性と意味的特徴を投影する。
論文 参考訳(メタデータ) (2024-12-08T15:28:30Z) - Ultra Sharp : Study of Single Image Super Resolution using Residual
Dense Network [0.15229257192293202]
シングルイメージ・スーパーレゾリューション(SISR)はコンピュータビジョンにおいて興味深い問題であり、不適切な問題となっている。
従来の超高解像度イメージングアプローチには、再構築、学習に基づく方法が含まれる。
本稿では,Yhangらが開発したResidual Dense Networksアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2023-04-21T10:32:24Z) - RGB-D based Stair Detection using Deep Learning for Autonomous Stair
Climbing [6.362951673024623]
本稿では,RGBマップと深度マップの両方の入力を持つニューラルネットワークアーキテクチャを提案する。
具体的には,RGBマップと深度マップの相補関係をネットワークが学習できるように,選択モジュールを設計する。
提案手法は,従来の最先端深層学習法と比較して精度の向上とリコールが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-02T11:22:52Z) - StructVPR: Distill Structural Knowledge with Weighting Samples for
Visual Place Recognition [49.58170209388029]
視覚的位置認識(VPR)は通常、特定の画像検索問題と見なされる。
我々は、RGBグローバル機能における構造的知識を高めるために、VPRのための新しいトレーニングアーキテクチャであるStructVPRを提案する。
計算コストを低く保ちながら最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-12-02T02:52:01Z) - Learning Deep Context-Sensitive Decomposition for Low-Light Image
Enhancement [58.72667941107544]
典型的なフレームワークは、照明と反射を同時に推定することであるが、特徴空間にカプセル化されたシーンレベルの文脈情報を無視する。
本研究では,空間スケールにおけるシーンレベルのコンテキスト依存を生かした,コンテキスト依存型分解ネットワークアーキテクチャを提案する。
チャネル数を減らして軽量なCSDNet(LiteCSDNet)を開発する。
論文 参考訳(メタデータ) (2021-12-09T06:25:30Z) - FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time
Semantic Segmentation [19.265576529259647]
RGB-Tセマンティックセマンティックセグメンテーションタスクのための2段階機能拡張アテンションネットワーク(FEANet)を提案する。
具体的には、チャネルビューと空間ビューの両方からマルチレベル特徴を発掘・拡張するための機能拡張注意モジュール(FEAM)を導入する。
提案する FEAM モジュールに特化して,FEANet は空間情報を保存し,融合した RGB-T 画像から高分解能な特徴に注目する。
論文 参考訳(メタデータ) (2021-10-18T02:43:41Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。