論文の概要: DragOSM: Extract Building Roofs and Footprints from Aerial Images by Aligning Historical Labels
- arxiv url: http://arxiv.org/abs/2509.17951v1
- Date: Mon, 22 Sep 2025 16:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.48737
- Title: DragOSM: Extract Building Roofs and Footprints from Aerial Images by Aligning Historical Labels
- Title(参考訳): DragOSM:歴史的ラベルの調整による空中画像から屋根と足跡の抽出
- Authors: Kai Li, Xingxing Weng, Yupeng Deng, Yu Meng, Chao Pang, Gui-Song Xia, Xiangyu Zhao,
- Abstract要約: Drag OpenStreetMap Labels (DragOSM) を提案する。
DragOSMはラベルアライメントを対話的な復調プロセスとして定式化し、位置差をガウス分布としてモデル化する。
我々は,OpenStreetMapを併用した179,265の建物と,41都市5,473枚のアノテーションを手作業で修正した,OSM (ReBO) の修復建物に関する新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 48.74862499599635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting polygonal roofs and footprints from remote sensing images is critical for large-scale urban analysis. Most existing methods rely on segmentation-based models that assume clear semantic boundaries of roofs, but these approaches struggle in off- nadir images, where the roof and footprint are significantly displaced, and facade pixels are fused with the roof boundary. With the increasing availability of open vector map annotations, e.g., OpenStreetMap, utilizing historical labels for off-nadir image annotation has become viable because remote sensing images are georeferenced once captured. However, these historical labels commonly suffer from significant positional discrepancies with new images and only have one annotation (roof or footprint), which fails to describe the correct structures of a building. To address these discrepancies, we first introduce a concept of an alignment token, which encodes the correction vector to guide the label correction. Based on this concept, we then propose Drag OpenStreetMap Labels (DragOSM), a novel model designed to align dislocated historical labels with roofs and footprints. Specifically, DragOSM formulates the label alignment as an interactive denoising process, modeling the positional discrepancy as a Gaussian distribution. During training, it learns to correct these errors by simulating misalignment with random Gaussian perturbations; during inference, it iteratively refines the positions of input labels. To validate our method, we further present a new dataset, Repairing Buildings in OSM (ReBO), comprising 179,265 buildings with both OpenStreetMap and manually corrected annotations across 5,473 images from 41 cities. Experimental results on ReBO demonstrate the effectiveness of DragOSM. Code, dataset, and trained models are publicly available at https://github.com/likaiucas/DragOSM.git.
- Abstract(参考訳): リモートセンシング画像から多角形の屋根と足跡を抽出することは、大規模都市分析にとって重要である。
既存の手法のほとんどは、屋根の明確な意味境界を仮定するセグメンテーションに基づくモデルに依存しているが、これらのアプローチは、屋根と足跡が著しくずれ、ファサードピクセルが屋根の境界と融合する、オフナディア画像に苦慮している。
オープンベクターマップアノテーション(例:OpenStreetMap)の利用可能化に伴い、リモートセンシング画像が一度キャプチャーされたときにジオレファレンスされるため、オフナディア画像アノテーションの履歴ラベルを利用することが可能になった。
しかし、これらの歴史的ラベルは一般的に、新しい画像と重要な位置の相違に悩まされ、1つのアノテーション(屋根や足跡)しか持たず、建物の正しい構造を記述できない。
これらの相違に対処するため,まずアライメントトークンの概念を導入し,修正ベクトルを符号化してラベル補正を行う。
Drag OpenStreetMap Labels (DragOSM) は, 移動履歴ラベルを屋根やフットプリントと整合させる新しいモデルである。
具体的には、DragOSMはラベルアライメントを対話的な復調過程として定式化し、位置差をガウス分布としてモデル化する。
トレーニング中は、ランダムなガウス摂動で不整合をシミュレートすることでこれらの誤りを修正することを学び、推論中は、入力ラベルの位置を反復的に洗練する。
提案手法を検証するため,OSM (ReBO) における建物修復のための新しいデータセットを新たに提示した。OpenStreetMap と,41都市5,473 件のアノテーションを手作業で修正した179,265 棟の建物である。
ReBO実験結果からDragOSMの有効性が示された。
コード、データセット、トレーニングされたモデルはhttps://github.com/likaiucas/DragOSM.git.comで公開されている。
関連論文リスト
- SAModified: A Foundation Model-Based Zero-Shot Approach for Refining Noisy Land-Use Land-Cover Maps [2.374912052693646]
土地利用・土地被覆分析(LULC)はリモートセンシングにおいて重要である。
機械学習を用いたLULCマップの自動生成は、ノイズの多いラベルのため困難である。
基礎モデルSegment Anything Model (SAM) を用いたゼロショットアプローチを提案する。
ラベルノイズの顕著な低減と下流セグメンテーションモデルの性能向上を実現し,デノファイドラベルを用いてトレーニングすると,$approx 5%の値が得られた。
論文 参考訳(メタデータ) (2024-12-17T05:23:00Z) - Training Matting Models without Alpha Labels [22.249204770416927]
この研究は、前景/背景を監督として粗く示すトリマップのような粗いアノテーションを用いて調査する。
本研究は, 既知領域からの学習意味論と適切な仮定マッチング規則との協調が, 遷移領域におけるアルファ値の推測に有効であることが示唆された。
AM-2K と P3M-10K のデータセットを用いた実験により,我々のパラダイムはファインレーベルの教師付きベースラインと同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-20T04:34:06Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Weakly-Supervised Salient Object Detection Using Point Supervison [17.88596733603456]
現在の最先端の精度検出モデルは、正確なピクセル単位のアノテーションの大規模なデータセットに大きく依存している。
本稿では,ポイント・インスペクタを用いた弱教師付きサルエント・オブジェクト検出手法を提案する。
我々の手法は、より強い監督力で訓練された従来の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T12:16:05Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z) - Learning to segment from misaligned and partial labels [0.0]
アーバン以外の多くの設定は、正確なセグメンテーションに必要な基盤構造を欠いている。
OpenStreetMaps (OSM)のようなオープンソースのインフラストラクチャアノテーションがこの問題を代表している。
本稿では,不整合アノテーションと欠落アノテーションを付与した画素画像分割を改良した,新規で一般化可能な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-27T06:02:58Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。