論文の概要: Extracting polygonal footprints in off-nadir images with Segment Anything Model
- arxiv url: http://arxiv.org/abs/2408.08645v2
- Date: Thu, 24 Oct 2024 05:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 07:18:07.207023
- Title: Extracting polygonal footprints in off-nadir images with Segment Anything Model
- Title(参考訳): Segment Anything Model を用いたオフナディア画像における多角形フットプリントの抽出
- Authors: Kai Li, Jingbo Chen, Yupeng Deng, Yu Meng, Diyou Liu, Junxian Ma, Chenhao Wang, Xiangyu Zhao,
- Abstract要約: 我々は,多角形フットプリント予測のためのエンド・ツー・エンドおよびプロンプト可能なモデルであるOBMv2を提案する。
OBMと異なり、OBMv2は様々なビルディングタイプのパフォーマンスを向上させる新しいSOFA(Self Offset Attention)メカニズムを導入している。
屋上マスクやビルディングマスク,オフセットを効果的に活用し,フットプリントの正確な予測を行うマルチレベル情報システム(MISS)を提案する。
- 参考スコア(独自算出の注目度): 27.5051982104645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building Footprint Extraction (BFE) from off-nadir aerial images often involves roof segmentation and offset prediction to adjust roof boundaries to the building footprint. However, this multi-stage approach typically produces low-quality results, limiting its applicability in real-world data production. To address this issue, we present OBMv2, an end-to-end and promptable model for polygonal footprint prediction. Unlike its predecessor OBM, OBMv2 introduces a novel Self Offset Attention (SOFA) mechanism that improves performance across diverse building types, from bungalows to skyscrapers, enabling end-to-end footprint prediction without post-processing. Additionally, we propose a Multi-level Information System (MISS) to effectively leverage roof masks, building masks, and offsets for accurate footprint prediction. We evaluate OBMv2 on the BONAI and OmniCity-view3 datasets and demonstrate its generalization on the Huizhou test set. The code will be available at https://github.com/likaiucas/OBMv2.
- Abstract(参考訳): オフナディア航空画像からのフットプリント抽出(BFE)の構築は、しばしば屋根のセグメンテーションとオフセット予測を伴い、屋根の境界を建物のフットプリントに調整する。
しかし、このマルチステージアプローチは一般的に低品質な結果をもたらし、実際のデータ生産に適用性を制限する。
この問題に対処するために、多角形フットプリント予測のためのエンドツーエンドおよびプロンプト可能なモデルであるOBMv2を提案する。
OBMと異なり、OBMv2は新しいSOFAメカニズムを導入し、バンガローから高層ビルまで様々なタイプの建物のパフォーマンスを改善し、後処理なしでエンドツーエンドのフットプリント予測を可能にする。
さらに,屋上マスク,ビルディングマスク,オフセットを効果的に活用し,フットプリントの正確な予測を行うマルチレベル情報システム(MISS)を提案する。
我々は,BONAIおよびOmniCity-view3データセット上でOBMv2を評価し,Huizhouテストセット上でのOBMv2の一般化を実証した。
コードはhttps://github.com/likaiucas/OBMv2.comから入手できる。
関連論文リスト
- LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping [5.093758132026397]
本稿では,高解像度空中画像から多角形道路輪郭を抽出する最初のフレームワークであるLDPolyを紹介する。
新しいベンチマークデータセットであるMap2ImLasでLDPolyを評価する。
論文 参考訳(メタデータ) (2025-04-29T11:13:33Z) - Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery [2.867517731896504]
Pix2Polyは、リンググラフ形式で明示的な高品質なビルディングフットプリントを直接生成できる、エンドツーエンドのトレーニング可能で微分可能なディープニューラルネットワークである。
従来のグラフ学習手法と比較して,我々は,複雑で計算集約的な損失関数や複雑なトレーニングパイプラインを必要とせず,高品質な建築フットプリントと道路ネットワークを抽出する,真にエンドツーエンドのトレーニング可能なアプローチである。
論文 参考訳(メタデータ) (2024-12-10T20:10:46Z) - SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。
私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。
アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文 参考訳(メタデータ) (2024-09-30T17:59:03Z) - RoIPoly: Vectorized Building Outline Extraction Using Vertex and Logit Embeddings [5.093758132026397]
航空画像や衛星画像から建物概要を抽出する新しいクエリベースの手法を提案する。
クエリとして各ポリゴンを定式化し、潜在的ビルディングの最も関連性の高い領域に対してクエリの注意を拘束する。
本手法は,2次元フロアプラン再構築データセットであるStructured3Dを用いて,ベクトル化建物アウトライン抽出データセット(CrowdAI)と2次元フロアプラン再構築データセット(Structured3D)について評価する。
論文 参考訳(メタデータ) (2024-07-20T16:12:51Z) - Enhancing Polygonal Building Segmentation via Oriented Corners [0.3749861135832072]
本稿では,入力画像から直接ポリゴンを抽出する,OriCornerNetという新しいディープ畳み込みニューラルネットワークを提案する。
我々のアプローチは、隣接する角への方向を示すフットプリントマスク、コーナー、配向ベクトルを予測できる深いモデルを含む。
SpaceNet VegasとCrowdAIの小さなデータセットで行った性能評価は、我々のアプローチの競争力を示すものである。
論文 参考訳(メタデータ) (2024-07-17T01:59:06Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Arbitrary-Scale Point Cloud Upsampling by Voxel-Based Network with
Latent Geometric-Consistent Learning [52.825441454264585]
Voxel-based Network (textbfPU-VoxelNet) を用いた任意のスケールのクラウド・アップサンプリング・フレームワークを提案する。
ボクセル表現から継承された完全性と規則性により、ボクセルベースのネットワークは3次元表面を近似する事前定義されたグリッド空間を提供することができる。
密度誘導グリッド再サンプリング法を開発し、高忠実度点を生成するとともに、サンプリング出力を効果的に回避する。
論文 参考訳(メタデータ) (2024-03-08T07:31:14Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Progressive Evolution from Single-Point to Polygon for Scene Text [79.29097971932529]
単点をコンパクトな多角形に効率よく変換できるPoint2Polygonを導入する。
まず認識信頼度に基づいてアンカーポイントを作成し,ポリゴンを垂直に水平に精製する。
また,本手法により生成したポリゴンを用いた学習において,GTと比較して精度の86%を達成し,さらに,提案したPoint2Polygonをシームレスに統合することにより,単一点スポッターにポリゴンの生成を促進させることができた。
論文 参考訳(メタデータ) (2023-12-21T12:08:27Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Prompt-Driven Building Footprint Extraction in Aerial Images with
Offset-Building Model [11.1278832358904]
屋上・オフセット抽出のための高速化可能なフレームワークを提案する。
本フレームワークでは,新しいオフセット構築モデル(OBM)を提案する。
我々のモデルはオフセット誤差を16.6%削減し、他のモデルに比べて10.8%改善した。
論文 参考訳(メタデータ) (2023-10-25T15:44:50Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Semi-supervised Learning from Street-View Images and OpenStreetMap for
Automatic Building Height Estimation [59.6553058160943]
本稿では,Mapillary SVIとOpenStreetMapのデータから建物の高さを自動的に推定する半教師付き学習(SSL)手法を提案する。
提案手法は, 平均絶対誤差(MAE)が約2.1mである建物の高さを推定する上で, 明らかな性能向上につながる。
予備結果は,低コストなVGIデータに基づく提案手法のスケールアップに向けた今後の取り組みを期待し,動機づけるものである。
論文 参考訳(メタデータ) (2023-07-05T18:16:30Z) - BiSVP: Building Footprint Extraction via Bidirectional Serialized Vertex
Prediction [43.61580149432732]
BiSVPは、改良のないエンドツーエンドの建築フットプリント抽出手法である。
本稿では,高解像度でリッチなセマンティックな特徴学習を実現するために,CSFFモジュールを提案する。
当社のBiSVPは,3つのビルディングインスタンスセグメンテーションベンチマークにおいて,最先端の手法よりもかなり優れている。
論文 参考訳(メタデータ) (2023-03-01T07:50:34Z) - PolyBuilding: Polygon Transformer for End-to-End Building Extraction [9.196604757138825]
PolyBuildingはリモートセンシング画像から建物のベクトル表現を予測する。
モデルはそれらの関係を学習し、画像からコンテキスト情報を符号化し、構築ポリゴンの最終セットを予測する。
また、ピクセルレベルのカバレッジ、インスタンスレベルの精度とリコール、幾何学レベルの特性など、新たな最先端性を実現している。
論文 参考訳(メタデータ) (2022-11-03T04:53:17Z) - Towards General-Purpose Representation Learning of Polygonal Geometries [62.34832826705641]
我々は,多角形形状を埋め込み空間に符号化できる汎用多角形符号化モデルを開発した。
1)MNISTに基づく形状分類,2)DBSR-46KとDBSR-cplx46Kという2つの新しいデータセットに基づく空間関係予測を行う。
以上の結果から,NUFTspec と ResNet1D は,既存のベースラインよりも有意なマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-29T15:59:23Z) - Learning to Extract Building Footprints from Off-Nadir Aerial Images [33.2991137981025]
既存のアプローチでは、建物の屋根と足跡はよく重なり合っていると仮定されている。
本稿では,ビル跡抽出問題をインスタンスレベルの共同予測問題に変換する,オフセットベクトル学習手法を提案する。
本論文では,新たなデータセットであるビルディング・イン・オフ・ナディア航空画像(BONAI)を作成し,公開する。
論文 参考訳(メタデータ) (2022-04-28T16:56:06Z) - PolyWorld: Polygonal Building Extraction with Graph Neural Networks in
Satellite Images [10.661430927191205]
本稿では、画像から直接建物頂点を抽出し、それらを正しく接続して正確なポリゴンを生成するニューラルネットワークであるPolyWorldを紹介する。
PolyWorldは、ポリゴン化の構築における最先端を著しく上回る。
論文 参考訳(メタデータ) (2021-11-30T15:23:17Z) - Voxel-based Network for Shape Completion by Leveraging Edge Generation [76.23436070605348]
エッジ生成(VE-PCN)を利用した点雲補完のためのボクセルネットワークを開発した。
まず点雲を正規のボクセル格子に埋め込み、幻覚した形状のエッジの助けを借りて完全な物体を生成する。
この分離されたアーキテクチャとマルチスケールのグリッド機能学習は、より現実的な表面上の詳細を生成することができる。
論文 参考訳(メタデータ) (2021-08-23T05:10:29Z) - Hierarchical Convolutional Neural Network with Feature Preservation and
Autotuned Thresholding for Crack Detection [5.735035463793008]
ドローンの画像はインフラ表面の欠陥の自動検査にますます使われている。
本稿では,階層型畳み込みニューラルネットワークを用いた深層学習手法を提案する。
提案手法は, 道路, 橋, 舗装の表面ひび割れの同定に応用されている。
論文 参考訳(メタデータ) (2021-04-21T13:07:58Z) - Quantization in Relative Gradient Angle Domain For Building Polygon
Estimation [88.80146152060888]
CNNアプローチは、しばしばノイズの多いエッジや丸いコーナーを含む不正確な建築形態を生成する。
CNNセグメンテーション出力から角状かつ簡潔なビルディングポリゴンを生成するために,ビルディングコーナーの事前知識を利用するモジュールを提案する。
提案手法は, 円形近似によるCNN出力を, より鮮明な形状の建物足跡に改良することを示した。
論文 参考訳(メタデータ) (2020-07-10T21:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。