論文の概要: Crowd Detection Using Very-Fine-Resolution Satellite Imagery
- arxiv url: http://arxiv.org/abs/2504.19546v1
- Date: Mon, 28 Apr 2025 07:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.350483
- Title: Crowd Detection Using Very-Fine-Resolution Satellite Imagery
- Title(参考訳): 超高解像度衛星画像を用いた群集検出
- Authors: Tong Xiao, Qunming Wang, Ping Lu, Tenghai Huang, Xiaohua Tong, Peter M. Atkinson,
- Abstract要約: 群衆検出(CD)は、公共の安全と歴史的パターン分析に重要である。
CrowdSat-Netは、新しいポイントベースの畳み込みニューラルネットワークである。
CrowdSat-Netは5つの最先端のポイントベースのCD手法と比較された。
- 参考スコア(独自算出の注目度): 23.509128934809453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate crowd detection (CD) is critical for public safety and historical pattern analysis, yet existing methods relying on ground and aerial imagery suffer from limited spatio-temporal coverage. The development of very-fine-resolution (VFR) satellite sensor imagery (e.g., ~0.3 m spatial resolution) provides unprecedented opportunities for large-scale crowd activity analysis, but it has never been considered for this task. To address this gap, we proposed CrowdSat-Net, a novel point-based convolutional neural network, which features two innovative components: Dual-Context Progressive Attention Network (DCPAN) to improve feature representation of individuals by aggregating scene context and local individual characteristics, and High-Frequency Guided Deformable Upsampler (HFGDU) that recovers high-frequency information during upsampling through frequency-domain guided deformable convolutions. To validate the effectiveness of CrowdSat-Net, we developed CrowdSat, the first VFR satellite imagery dataset designed specifically for CD tasks, comprising over 120k manually labeled individuals from multi-source satellite platforms (Beijing-3N, Jilin-1 Gaofen-04A and Google Earth) across China. In the experiments, CrowdSat-Net was compared with five state-of-the-art point-based CD methods (originally designed for ground or aerial imagery) using CrowdSat and achieved the largest F1-score of 66.12% and Precision of 73.23%, surpassing the second-best method by 1.71% and 2.42%, respectively. Moreover, extensive ablation experiments validated the importance of the DCPAN and HFGDU modules. Furthermore, cross-regional evaluation further demonstrated the spatial generalizability of CrowdSat-Net. This research advances CD capability by providing both a newly developed network architecture for CD and a pioneering benchmark dataset to facilitate future CD development.
- Abstract(参考訳): 正確な群集検出(CD)は、公共の安全と歴史的パターン解析において重要であるが、地上と空中の画像に依存する既存の手法は、時空間的範囲が限られている。
超高分解能(VFR)衛星センサ画像(例えば、0.3m空間分解能)の開発は、大規模な群衆活動分析に前例のない機会を与えるが、この課題には考慮されていない。
このギャップに対処するため、我々は、シーンコンテキストと局所的な個々の特徴を集約することで、個人の特徴表現を改善するためのDual-Context Progressive Attention Network(DCPAN)と、周波数領域ガイドによる変形可能な畳み込みによるアップサンプリング中に高周波情報を回復するHigh-Frequency Guided Deformable Upsampler(HFGDU)という、2つの革新的なコンポーネントを特徴とする、新しいポイントベースの畳み込みニューラルネットワークであるCrowdSat-Netを提案した。
CrowdSat-Netの有効性を検証するために,中国全土のマルチソース衛星プラットフォーム(Beijing-3N, Jilin-1 Gaofen-04A, Google Earth)から120万以上の個人を手動でラベル付けした,CDタスク用に設計された最初のVFR衛星画像データセットであるCrowdSatを開発した。
実験では、CrowdSat-Netは、CrowdSatを使った5つの最先端のポイントベースのCD法(元々は地上または空中画像用に設計された)と比較され、最大のF1スコアは66.12%、精度は73.23%に達し、それぞれ1.71%と2.42%を上回った。
さらに、広範囲にわたるアブレーション実験により、DCPANとHFGDUモジュールの重要性が検証された。
さらに、クロスリージョン評価により、CrowdSat-Netの空間的一般化性がさらに証明された。
本研究は,CDのための新たなネットワークアーキテクチャと,将来のCD開発を促進するための先駆的なベンチマークデータセットを提供することにより,CD機能を向上させる。
関連論文リスト
- SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery [35.550999964460466]
本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
論文 参考訳(メタデータ) (2023-12-15T09:57:21Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Semantic Segmentation in Satellite Hyperspectral Imagery by Deep Learning [54.094272065609815]
本稿では1D-Justo-LiuNetという軽量な1D-CNNモデルを提案する。
1D-Justo-LiuNetは、全てのテストモデルの中で最小のモデルサイズ (4,563 パラメータ) を持つ最大精度 (0.93) を達成する。
論文 参考訳(メタデータ) (2023-10-24T21:57:59Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - DeepTriNet: A Tri-Level Attention Based DeepLabv3+ Architecture for
Semantic Segmentation of Satellite Images [0.0]
本研究では,衛星画像のセマンティックセグメンテーションのための3レベルアテンションに基づくDeepLabv3+アーキテクチャ(DeepTriNet)を提案する。
提案手法は, 圧縮・励起ネットワーク (SENets) とトリレベルアテンションユニット (TAUs) をバニラのDeepLabv3+アーキテクチャと組み合わせたものである。
提案したDeepTriNetは、精度が98%と77%、IoU 80%と58%、精度が88%と68%で、それぞれ4クラスのLand-Cover.aiデータセットと15クラスのGID-2データセットで79%と55%のリコールで、従来の多くの手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-05T18:35:34Z) - Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - Spatial Layout Consistency for 3D Semantic Segmentation [0.7614628596146599]
本稿では,ALTMの点雲のボクセルに基づくセマンティックセマンティックセグメンテーションを実現するための,新しいディープ畳み込みニューラルネットワーク(DCNN)手法を提案する。
提案する深層学習手法であるセマンティック・ユーティリティ・ネットワーク(SUNet)は多次元・多次元ネットワークである。
実験により,SuNetの空間的レイアウトの整合性とマルチレゾリューション機能アグリゲーションにより,性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-03-02T03:24:21Z) - Deep Learning Models for River Classification at Sub-Meter Resolutions
from Multispectral and Panchromatic Commercial Satellite Imagery [2.121978045345352]
この研究は、Quickbird、WorldView、GeoEye衛星の画像を用いて北極の河川に焦点を当てている。
我々は、8バンドマルチスペクトルセンサーのRGBとNIRバンドを用いており、これらの訓練されたモデルはすべて、衛星画像特有のトレーニングデータのオンザフライ前処理によって、検証データに対して90%以上の精度とリコールを達成している。
新たなアプローチでは、マルチスペクトルモデルによる結果を用いて、パンクロマチック画像のみを必要とするFCNのトレーニングデータを生成する。
論文 参考訳(メタデータ) (2022-12-27T20:56:34Z) - Using Machine Learning to generate an open-access cropland map from
satellite images time series in the Indian Himalayan Region [0.28675177318965034]
我々は,Sentinel-2衛星画像時系列に依存するMLパイプラインを開発した。
ヒマハル・プラデーシュの3つの地区で14,600 km2の農地マップを作成し、既存の公共地図の解像度と品質を改善した。
論文 参考訳(メタデータ) (2022-03-28T12:08:06Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。