論文の概要: Slum Detection and Density Mapping with AlphaEarth Foundations: A Representation Learning Evaluation Across 12 Global Cities
- arxiv url: http://arxiv.org/abs/2605.10029v1
- Date: Mon, 11 May 2026 05:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.558211
- Title: Slum Detection and Density Mapping with AlphaEarth Foundations: A Representation Learning Evaluation Across 12 Global Cities
- Title(参考訳): AlphaEarth Foundationsによるスラム検出と密度マッピング:12大都市を対象とした表現学習評価
- Authors: Shuyang Hou, Ziqi Liu, Haoyue Jiao, Zhangyan Xu, Xiaopu Zhang, Lutong Xie, Yaxian Qing, Jianyuan Liang, Xuefeng Guan, Huayi Wua,
- Abstract要約: 画素レベルのスラムマッピングは、長い間、限られた都市間一般化によって制約されてきた。
AlphaEarth Foundationsは、軽量スラムモニタリングのための新しい分析可能なベースを提供する。
我々は,12都市と69都市年対のスラム分類とサブピクセル密度推定についてAFFを評価した。
- 参考スコア(独自算出の注目度): 9.982796078979648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pixel-level slum mapping has long been constrained by limited cross-city generalisation, the absence of continuous density estimation, and weak global comparability. AlphaEarth Foundations (AEF), a globally consistent 64-dimensional annual surface embedding at 10 m, offers a new analysis-ready basis for lightweight slum monitoring, but its applicability to slum detection - an indirectly coupled task shaped by both built form and socio-economic processes - remains untested. We evaluate AEF on slum classification and sub-pixel density estimation across 12 cities and 69 city-year pairs (2017-2024), using GRAM pseudo-masks as supervisory labels. The evaluation spans four training strategies, two protocols (random split and 3x3 spatial block cross-validation), six auxiliary feature configurations, and five baseline models, complemented by representation-level analyses (PCA, SHAP) and full-AOI mapping. Five findings emerge. (1) Same-city cross-year training is optimal under both protocols (median spatial F1 = 0.616, R^2 = 0.466); temporal expansion outperforms cross-city transfer, indicating city-scale representational drift. (2) Regression R^2 is driven primarily by zero/non-zero boundary discrimination: positive-pixel R^2 is consistently negative across all cities, revealing limited capacity to model intra-pixel density gradients at 10 m. (3) PC36 is consistently top-ranked across tasks; classification saturates at k = 32 while regression remains unsaturated at k = 64. (4) POI features yield the largest density gain (Delta R^2 = +0.064). (5) For six cities meeting dual-task usability thresholds, full-AOI inference across 2017-2024 preserves slum cluster structure (mean SSIM = 0.926). The study delineates the capabilities and complementarity needs of foundation-model embeddings for slum monitoring.
- Abstract(参考訳): 画素レベルのスラムマッピングは、長い間、限られた都市間一般化、連続密度推定の欠如、および弱い大域的可視性によって制約されてきた。
AlphaEarth Foundations (AEF)は、64次元の年次表面を10mに埋め込むことで、軽量スラムモニタリングのための新しい分析可能な基盤を提供するが、スラム検出への適用性は、構築されたフォームと社会経済プロセスの両方で形成された間接的に結合されたタスクである。
我々は,12都市と69都市年ペア(2017-2024)のスラム分類とサブピクセル密度の推定について,GRAM擬似マスクを監督ラベルとして評価した。
評価は4つのトレーニング戦略,2つのプロトコル(ランダム分割と3x3空間ブロッククロスバリデーション),6つの補助的特徴構成,5つのベースラインモデルで構成され,表現レベル解析(PCA,SHAP)と全AOIマッピングによって補完される。
5つの発見がある。
1) 都市横断訓練は両プロトコル(中間空間F1 = 0.616, R^2 = 0.466)で最適である。
2) 回帰R^2は主にゼロ/非ゼロ境界の判別によって駆動される: 正画素R^2は全都市で一貫して負であり, 画素内密度勾配を10mでモデル化する能力に制限があることが明らかになった。
分類は k = 32 で飽和し、回帰は k = 64 で不飽和である。
(4)POIは最大の密度ゲインをもたらす(Delta R^2 = +0.064)。
(5) マルチタスクのユーザビリティ閾値を満たす6つの都市では、2017-2024年の全AOI推論がスラムクラスタ構造を保存する(平均SSIM = 0.926)。
本研究はスラムモニタリングのための基礎モデル埋め込みの機能と相補性の必要性について述べる。
関連論文リスト
- Efficient Hybrid CNN-GNN Architecture for Monocular Depth Estimation [0.0]
畳み込みエンコーダ・デコーダフレームワークにグラフニューラルネットワーク(GNN)を統合する単眼深度推定アーキテクチャであるGraphDepthを提案する。
我々のアプローチは、効率的なGraphSAGEレイヤをResNet-101 U-Netバックボーンの複数スケールに埋め込む。
NYU Depth V2、WHU Aerial、ETH3D、Mid-Airベンチマークの実験では、最先端のトランスフォーマーの4.6%で競合精度が示されている。
論文 参考訳(メタデータ) (2026-05-11T09:21:04Z) - Region Matters: Efficient and Reliable Region-Aware Visual Place Recognition [46.97190804063947]
本稿では,ロバストな識別領域モデリングと適応的再ランク付けを組み合わせたFoL++を提案する。
FoL++は、軽量なメモリフットプリントで最先端のパフォーマンスを実現し、FoLよりも推論速度を40%向上させる。
論文 参考訳(メタデータ) (2026-04-24T09:28:35Z) - Hierarchical Awareness Adapters with Hybrid Pyramid Feature Fusion for Dense Depth Prediction [9.96771578356719]
既存のアプローチは、深度マップを回帰するために、ますます複雑なネットワークアーキテクチャに依存している。
本論文では,Swin Transformerのバックボーン上に構築したマルチレベル条件付きランダムフィールド(CRF)モデルを提案する。
本稿では,Abs Relを0.088ドル(約7.4%)に,RMSEを0.316ドル(約5.4%)に削減し,ほぼ完全なしきい値精度を実現した。
論文 参考訳(メタデータ) (2026-04-03T07:59:26Z) - Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement [0.0]
視覚言語モデルは、それらのテキスト経路が表現できないような幾何学を符号化する。
ロラ微調整(r=16, 2,000枚)は、このギャップを6.5度に縮める。
これらの知見は、単一の凍結したバックボーンがマルチタスク幾何学的センサーとして機能することを可能にした。
論文 参考訳(メタデータ) (2026-03-06T16:48:27Z) - Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility [0.0]
土地利用と移動需要の複雑な非線形相互作用による都市交通の流れ
本研究では,交通流パターンをモデル化するGeoAI Hybrid frameworkを提案する。
このフレームワークを2つの対照的な都市形態にまたがる6都市にわたる350の交通分析ゾーンのデータセットに適用すると、4つの結果が浮かび上がっている。
論文 参考訳(メタデータ) (2026-03-05T18:45:44Z) - SVRecon: Sparse Voxel Rasterization for Surface Reconstruction [60.92372415355283]
我々は最近提案されたスパースボキセル化パラダイムをSVReconの統合により高忠実度表面再構成の課題に拡張する。
本手法は, 常に高速な収束を保ちながら, 強い復元精度を実現する。
論文 参考訳(メタデータ) (2025-11-21T16:32:01Z) - Urban 3D Change Detection Using LiDAR Sensor for HD Map Maintenance and Smart Mobility [26.712098856567888]
都市規模LiDARのための物体中心型不確実性認識パイプラインを提案する。
これはエポックを多分解能NDTと整列し、次に点対平面ICP、高さを正規化し、位置検出レベルを導出する。
15代表のスービアコでは95.2%の精度、90.4%のmF1、82.6%のmIoUがトリプルトKPConvを超える精度、0.2のmF1、0.8のmIoUがブロックされ、IoUが74.8%に達し、7.6ポイント改善された。
論文 参考訳(メタデータ) (2025-10-24T02:59:55Z) - Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。