論文の概要: Extracting polygonal footprints in off-nadir images with Segment Anything Model
- arxiv url: http://arxiv.org/abs/2408.08645v1
- Date: Fri, 16 Aug 2024 10:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 15:57:38.991543
- Title: Extracting polygonal footprints in off-nadir images with Segment Anything Model
- Title(参考訳): Segment Anything Model を用いたオフナディア画像における多角形フットプリントの抽出
- Authors: Kai Li, Jingbo Chen, Yupeng Deng, Yu Meng, Diyou Liu, Junxian Ma, Chenhao Wang,
- Abstract要約: オフナディア航空画像におけるフットプリント抽出(BFE)の構築は、しばしば屋根のセグメンテーションと屋根からフットプリントまでのオフセット予測に依存している。
本稿では,OBMv2を提案する。これは,エンドツーエンドと高速多角形フットプリント予測の両方をサポートする。
- 参考スコア(独自算出の注目度): 13.662911312783352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building Footprint Extraction (BFE) in off-nadir aerial images often relies on roof segmentation and roof-to-footprint offset prediction, then drugging roof-to-footprint via the offset. However, the results from this multi-stage inference are not applicable in data production, because of the low quality of masks given by prediction. To solve this problem, we proposed OBMv2 in this paper, which supports both end-to-end and promptable polygonal footprint prediction. Different from OBM, OBMv2 using a newly proposed Self Offset Attention (SOFA) to bridge the performance gap on bungalow and skyscraper, which realized a real end-to-end footprint polygon prediction without postprocessing. %, such as Non-Maximum Suppression (NMS) and Distance NMS (DNMS). % To fully use information contained in roof masks, building masks and offsets, we proposed a Multi-level Information SyStem (MISS) for footprint prediction, with which OBMv2 can predict footprints even with insufficient predictions. Additionally, to squeeze information from the same model, we were inspired by Retrieval-Augmented Generation (RAG) in Nature Language Processing and proposed "RAG in BFE" problem. To verify the effectiveness of the proposed method, experiments were conducted on open datasets BONAI and OmniCity-view3. A generalization test was also conducted on Huizhou test set. The code will be available at \url{https://github.com/likaiucas/OBM}.
- Abstract(参考訳): オフナディア航空画像におけるフットプリント抽出(BFE)の構築は、しばしば屋根のセグメンテーションと屋根からフットプリントのオフセット予測に依存し、その後、オフセットを介して屋根からフットプリントをドラッグする。
しかし、この多段階推論の結果は、予測によって与えられるマスクの品質が低いため、データ生産には適用できない。
この問題を解決するため,本論文では,エンドツーエンドと高速な多角形フットプリント予測をサポートするOBMv2を提案する。
OBMとは異なり、OBMv2は新たに提案されたSOFA(Self Offset Attention)を使用してバンガローと超高層ビルのパフォーマンスギャップを埋め、後処理なしで実際のエンドツーエンドのフットプリントポリゴン予測を実現した。
%,非最大抑制 (NMS) や距離NMS (DNMS) などであった。
% 屋上マスク,建築マスク,オフセットに含まれる情報を完全に活用するために,OBMv2 がフットプリント予測に不十分な場合でもフットプリントを予測できるマルチレベル情報サイステム (MISS) を提案した。
さらに,同じモデルから情報を抽出するために,Nature Language Processing におけるRetrieval-Augmented Generation (RAG) に触発され,"RAG in BFE" 問題を提案した。
提案手法の有効性を検証するため,BONAIとOmniCity-view3を用いて実験を行った。
福州試験セットにも一般化試験が実施された。
コードは \url{https://github.com/likaiucas/OBM} で入手できる。
関連論文リスト
- PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness [38.802781781863196]
Panoptic Scene Completion (PSC)タスクは、一般的なセマンティック・シーン・コンプリート(SSC)タスクをインスタンスレベルの情報で拡張する。
我々のPSC提案では,スパースマルチスケールコンプリートから空でないボクセルにマスクを用いたハイブリッド手法を用いている。
提案手法は,Panoptic Scene Completionと3つの大規模自律走行データセットにおける不確実性評価の両方において,すべてのベースラインを超えている。
論文 参考訳(メタデータ) (2023-12-04T18:59:59Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Prompt-Driven Building Footprint Extraction in Aerial Images with
Offset-Building Model [11.1278832358904]
屋上・オフセット抽出のための高速化可能なフレームワークを提案する。
本フレームワークでは,新しいオフセット構築モデル(OBM)を提案する。
我々のモデルはオフセット誤差を16.6%削減し、他のモデルに比べて10.8%改善した。
論文 参考訳(メタデータ) (2023-10-25T15:44:50Z) - Semantic Scene Completion with Cleaner Self [93.99441599791275]
セマンティックシーンコンプリート(SSC)は、単一のビュー深さと/またはRGB 2Dピクセルの画像を3Dボクセルに変換し、それぞれのセマンティックラベルが予測される。
SSCは、予測モデルが目に見える表面の背後にあるものを「想像する」必要があるため、よく知られた偽装問題であり、通常はTrncated Signed Distance Function (TSDF) によって表される。
我々は3Dボクセルを用いて、TSDF-CADと呼ばれる完全な可視表面を生成し、次に「クリーン」なSSCモデルを訓練する。
モデルはノイズフリーなので、期待できる。
論文 参考訳(メタデータ) (2023-03-17T13:50:18Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - Learning to Extract Building Footprints from Off-Nadir Aerial Images [33.2991137981025]
既存のアプローチでは、建物の屋根と足跡はよく重なり合っていると仮定されている。
本稿では,ビル跡抽出問題をインスタンスレベルの共同予測問題に変換する,オフセットベクトル学習手法を提案する。
本論文では,新たなデータセットであるビルディング・イン・オフ・ナディア航空画像(BONAI)を作成し,公開する。
論文 参考訳(メタデータ) (2022-04-28T16:56:06Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - From Single to Multiple: Leveraging Multi-level Prediction Spaces for
Video Forecasting [37.322499502542556]
マルチプレディション空間で映像予測を行うための戦略を多数検討し,その結果を融合させて性能向上を図る。
本モデルでは, 難解な歪みやぼやけたアーチファクトを著しく低減し, 長期ビデオ予測における精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-21T13:23:16Z) - Hierarchical Convolutional Neural Network with Feature Preservation and
Autotuned Thresholding for Crack Detection [5.735035463793008]
ドローンの画像はインフラ表面の欠陥の自動検査にますます使われている。
本稿では,階層型畳み込みニューラルネットワークを用いた深層学習手法を提案する。
提案手法は, 道路, 橋, 舗装の表面ひび割れの同定に応用されている。
論文 参考訳(メタデータ) (2021-04-21T13:07:58Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。