Fugu-MT 論文翻訳(概要): Extracting polygonal footprints in off-nadir images with Segment Anything Model

論文の概要: Extracting polygonal footprints in off-nadir images with Segment Anything Model

arxiv url: http://arxiv.org/abs/2408.08645v1
Date: Fri, 16 Aug 2024 10:21:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-19 15:57:38.991543
Title: Extracting polygonal footprints in off-nadir images with Segment Anything Model
Title（参考訳）: Segment Anything Model を用いたオフナディア画像における多角形フットプリントの抽出
Authors: Kai Li, Jingbo Chen, Yupeng Deng, Yu Meng, Diyou Liu, Junxian Ma, Chenhao Wang,
Abstract要約: オフナディア航空画像におけるフットプリント抽出(BFE)の構築は、しばしば屋根のセグメンテーションと屋根からフットプリントまでのオフセット予測に依存している。本稿では,OBMv2を提案する。これは,エンドツーエンドと高速多角形フットプリント予測の両方をサポートする。
参考スコア（独自算出の注目度）: 13.662911312783352
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building Footprint Extraction (BFE) in off-nadir aerial images often relies on roof segmentation and roof-to-footprint offset prediction, then drugging roof-to-footprint via the offset. However, the results from this multi-stage inference are not applicable in data production, because of the low quality of masks given by prediction. To solve this problem, we proposed OBMv2 in this paper, which supports both end-to-end and promptable polygonal footprint prediction. Different from OBM, OBMv2 using a newly proposed Self Offset Attention (SOFA) to bridge the performance gap on bungalow and skyscraper, which realized a real end-to-end footprint polygon prediction without postprocessing. %, such as Non-Maximum Suppression (NMS) and Distance NMS (DNMS). % To fully use information contained in roof masks, building masks and offsets, we proposed a Multi-level Information SyStem (MISS) for footprint prediction, with which OBMv2 can predict footprints even with insufficient predictions. Additionally, to squeeze information from the same model, we were inspired by Retrieval-Augmented Generation (RAG) in Nature Language Processing and proposed "RAG in BFE" problem. To verify the effectiveness of the proposed method, experiments were conducted on open datasets BONAI and OmniCity-view3. A generalization test was also conducted on Huizhou test set. The code will be available at \url{https://github.com/likaiucas/OBM}.
Abstract（参考訳）: オフナディア航空画像におけるフットプリント抽出(BFE)の構築は、しばしば屋根のセグメンテーションと屋根からフットプリントのオフセット予測に依存し、その後、オフセットを介して屋根からフットプリントをドラッグする。しかし、この多段階推論の結果は、予測によって与えられるマスクの品質が低いため、データ生産には適用できない。この問題を解決するため,本論文では,エンドツーエンドと高速な多角形フットプリント予測をサポートするOBMv2を提案する。 OBMとは異なり、OBMv2は新たに提案されたSOFA(Self Offset Attention)を使用してバンガローと超高層ビルのパフォーマンスギャップを埋め、後処理なしで実際のエンドツーエンドのフットプリントポリゴン予測を実現した。 %,非最大抑制 (NMS) や距離NMS (DNMS) などであった。 % 屋上マスク,建築マスク,オフセットに含まれる情報を完全に活用するために,OBMv2 がフットプリント予測に不十分な場合でもフットプリントを予測できるマルチレベル情報サイステム (MISS) を提案した。さらに,同じモデルから情報を抽出するために,Nature Language Processing におけるRetrieval-Augmented Generation (RAG) に触発され,"RAG in BFE" 問題を提案した。提案手法の有効性を検証するため,BONAIとOmniCity-view3を用いて実験を行った。福州試験セットにも一般化試験が実施された。コードは \url{https://github.com/likaiucas/OBM} で入手できる。

関連論文リスト

LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping [5.093758132026397]
本稿では,高解像度空中画像から多角形道路輪郭を抽出する最初のフレームワークであるLDPolyを紹介する。新しいベンチマークデータセットであるMap2ImLasでLDPolyを評価する。
論文参考訳（メタデータ） (2025-04-29T11:13:33Z)
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery [2.867517731896504]
Pix2Polyは、リンググラフ形式で明示的な高品質なビルディングフットプリントを直接生成できる、エンドツーエンドのトレーニング可能で微分可能なディープニューラルネットワークである。従来のグラフ学習手法と比較して,我々は,複雑で計算集約的な損失関数や複雑なトレーニングパイプラインを必要とせず,高品質な建築フットプリントと道路ネットワークを抽出する,真にエンドツーエンドのトレーニング可能なアプローチである。
論文参考訳（メタデータ） (2024-12-10T20:10:46Z)
SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文参考訳（メタデータ） (2024-09-30T17:59:03Z)
RoIPoly: Vectorized Building Outline Extraction Using Vertex and Logit Embeddings [5.093758132026397]
航空画像や衛星画像から建物概要を抽出する新しいクエリベースの手法を提案する。クエリとして各ポリゴンを定式化し、潜在的ビルディングの最も関連性の高い領域に対してクエリの注意を拘束する。本手法は,2次元フロアプラン再構築データセットであるStructured3Dを用いて,ベクトル化建物アウトライン抽出データセット(CrowdAI)と2次元フロアプラン再構築データセット(Structured3D)について評価する。
論文参考訳（メタデータ） (2024-07-20T16:12:51Z)
Enhancing Polygonal Building Segmentation via Oriented Corners [0.3749861135832072]
本稿では,入力画像から直接ポリゴンを抽出する,OriCornerNetという新しいディープ畳み込みニューラルネットワークを提案する。我々のアプローチは、隣接する角への方向を示すフットプリントマスク、コーナー、配向ベクトルを予測できる深いモデルを含む。 SpaceNet VegasとCrowdAIの小さなデータセットで行った性能評価は、我々のアプローチの競争力を示すものである。
論文参考訳（メタデータ） (2024-07-17T01:59:06Z)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。 ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文参考訳（メタデータ） (2024-07-08T12:28:56Z)
Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。 PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。 COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文参考訳（メタデータ） (2024-06-11T20:34:10Z)
Arbitrary-Scale Point Cloud Upsampling by Voxel-Based Network with Latent Geometric-Consistent Learning [52.825441454264585]
Voxel-based Network (textbfPU-VoxelNet) を用いた任意のスケールのクラウド・アップサンプリング・フレームワークを提案する。ボクセル表現から継承された完全性と規則性により、ボクセルベースのネットワークは3次元表面を近似する事前定義されたグリッド空間を提供することができる。密度誘導グリッド再サンプリング法を開発し、高忠実度点を生成するとともに、サンプリング出力を効果的に回避する。
論文参考訳（メタデータ） (2024-03-08T07:31:14Z)
360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。また,水平深度と比表現に適した教師なし適応手法を提案する。本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文参考訳（メタデータ） (2023-12-26T12:16:03Z)
Progressive Evolution from Single-Point to Polygon for Scene Text [79.29097971932529]
単点をコンパクトな多角形に効率よく変換できるPoint2Polygonを導入する。まず認識信頼度に基づいてアンカーポイントを作成し,ポリゴンを垂直に水平に精製する。また,本手法により生成したポリゴンを用いた学習において,GTと比較して精度の86%を達成し,さらに,提案したPoint2Polygonをシームレスに統合することにより,単一点スポッターにポリゴンの生成を促進させることができた。
論文参考訳（メタデータ） (2023-12-21T12:08:27Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
Prompt-Driven Building Footprint Extraction in Aerial Images with Offset-Building Model [11.1278832358904]
屋上・オフセット抽出のための高速化可能なフレームワークを提案する。本フレームワークでは,新しいオフセット構築モデル(OBM)を提案する。我々のモデルはオフセット誤差を16.6%削減し、他のモデルに比べて10.8%改善した。
論文参考訳（メタデータ） (2023-10-25T15:44:50Z)
Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。 3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文参考訳（メタデータ） (2023-07-27T16:07:03Z)
Semi-supervised Learning from Street-View Images and OpenStreetMap for Automatic Building Height Estimation [59.6553058160943]
本稿では,Mapillary SVIとOpenStreetMapのデータから建物の高さを自動的に推定する半教師付き学習(SSL)手法を提案する。提案手法は, 平均絶対誤差(MAE)が約2.1mである建物の高さを推定する上で, 明らかな性能向上につながる。予備結果は,低コストなVGIデータに基づく提案手法のスケールアップに向けた今後の取り組みを期待し,動機づけるものである。
論文参考訳（メタデータ） (2023-07-05T18:16:30Z)
BiSVP: Building Footprint Extraction via Bidirectional Serialized Vertex Prediction [43.61580149432732]
BiSVPは、改良のないエンドツーエンドの建築フットプリント抽出手法である。本稿では,高解像度でリッチなセマンティックな特徴学習を実現するために,CSFFモジュールを提案する。当社のBiSVPは,3つのビルディングインスタンスセグメンテーションベンチマークにおいて,最先端の手法よりもかなり優れている。
論文参考訳（メタデータ） (2023-03-01T07:50:34Z)
PolyBuilding: Polygon Transformer for End-to-End Building Extraction [9.196604757138825]
PolyBuildingはリモートセンシング画像から建物のベクトル表現を予測する。モデルはそれらの関係を学習し、画像からコンテキスト情報を符号化し、構築ポリゴンの最終セットを予測する。また、ピクセルレベルのカバレッジ、インスタンスレベルの精度とリコール、幾何学レベルの特性など、新たな最先端性を実現している。
論文参考訳（メタデータ） (2022-11-03T04:53:17Z)
Towards General-Purpose Representation Learning of Polygonal Geometries [62.34832826705641]
我々は,多角形形状を埋め込み空間に符号化できる汎用多角形符号化モデルを開発した。 1)MNISTに基づく形状分類,2)DBSR-46KとDBSR-cplx46Kという2つの新しいデータセットに基づく空間関係予測を行う。以上の結果から,NUFTspec と ResNet1D は,既存のベースラインよりも有意なマージンで優れていた。
論文参考訳（メタデータ） (2022-09-29T15:59:23Z)
Learning to Extract Building Footprints from Off-Nadir Aerial Images [33.2991137981025]
既存のアプローチでは、建物の屋根と足跡はよく重なり合っていると仮定されている。本稿では,ビル跡抽出問題をインスタンスレベルの共同予測問題に変換する,オフセットベクトル学習手法を提案する。本論文では,新たなデータセットであるビルディング・イン・オフ・ナディア航空画像(BONAI)を作成し,公開する。
論文参考訳（メタデータ） (2022-04-28T16:56:06Z)
PolyWorld: Polygonal Building Extraction with Graph Neural Networks in Satellite Images [10.661430927191205]
本稿では、画像から直接建物頂点を抽出し、それらを正しく接続して正確なポリゴンを生成するニューラルネットワークであるPolyWorldを紹介する。 PolyWorldは、ポリゴン化の構築における最先端を著しく上回る。
論文参考訳（メタデータ） (2021-11-30T15:23:17Z)
Voxel-based Network for Shape Completion by Leveraging Edge Generation [76.23436070605348]
エッジ生成(VE-PCN)を利用した点雲補完のためのボクセルネットワークを開発した。まず点雲を正規のボクセル格子に埋め込み、幻覚した形状のエッジの助けを借りて完全な物体を生成する。この分離されたアーキテクチャとマルチスケールのグリッド機能学習は、より現実的な表面上の詳細を生成することができる。
論文参考訳（メタデータ） (2021-08-23T05:10:29Z)
Hierarchical Convolutional Neural Network with Feature Preservation and Autotuned Thresholding for Crack Detection [5.735035463793008]
ドローンの画像はインフラ表面の欠陥の自動検査にますます使われている。本稿では,階層型畳み込みニューラルネットワークを用いた深層学習手法を提案する。提案手法は, 道路, 橋, 舗装の表面ひび割れの同定に応用されている。
論文参考訳（メタデータ） (2021-04-21T13:07:58Z)
Quantization in Relative Gradient Angle Domain For Building Polygon Estimation [88.80146152060888]
CNNアプローチは、しばしばノイズの多いエッジや丸いコーナーを含む不正確な建築形態を生成する。 CNNセグメンテーション出力から角状かつ簡潔なビルディングポリゴンを生成するために,ビルディングコーナーの事前知識を利用するモジュールを提案する。提案手法は, 円形近似によるCNN出力を, より鮮明な形状の建物足跡に改良することを示した。
論文参考訳（メタデータ） (2020-07-10T21:33:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。