論文の概要: Rebuild City Buildings from Off-Nadir Aerial Images with Offset-Building
Model (OBM)
- arxiv url: http://arxiv.org/abs/2310.16717v1
- Date: Wed, 25 Oct 2023 15:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:51:31.525164
- Title: Rebuild City Buildings from Off-Nadir Aerial Images with Offset-Building
Model (OBM)
- Title(参考訳): オフセットビルディングモデル(OBM)によるオフナディア航空画像からの都市ビルの再建
- Authors: Kai Li, Yupeng Deng, Yunlong Kong, Diyou Liu, Jingbo Chen, Yu Meng,
Junxian Ma
- Abstract要約: 本稿では,対話型トランスフォーマーモデルとプロンプトエンコーダを組み合わせることで,ビルのセグメンテーションを正確に抽出する手法を提案する。
ROAMと呼ばれる強力なモジュールは、屋根とフットプリントのオフセットを予測するための一般的な問題のために調整された。
また,大規模ビルディングオフセットに適したDistance-NMSアルゴリズムを開発し,予測ビルディングオフセット角度と長さの精度を大幅に向上させた。
- 参考スコア(独自算出の注目度): 11.1278832358904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate measurement of the offset from roof-to-footprint in
very-high-resolution remote sensing imagery is crucial for urban information
extraction tasks. With the help of deep learning, existing methods typically
rely on two-stage CNN models to extract regions of interest on building feature
maps. At the first stage, a Region Proposal Network (RPN) is applied to extract
thousands of ROIs (Region of Interests) which will post-imported into a
Region-based Convolutional Neural Networks (RCNN) to extract wanted
information. However, because of inflexible RPN, these methods often lack
effective user interaction, encounter difficulties in instance correspondence,
and struggle to keep up with the advancements in general artificial
intelligence. This paper introduces an interactive Transformer model combined
with a prompt encoder to precisely extract building segmentation as well as the
offset vectors from roofs to footprints. In our model, a powerful module,
namely ROAM, was tailored for common problems in predicting roof-to-footprint
offsets. We tested our model's feasibility on the publicly available BONAI
dataset, achieving a significant reduction in Prompt-Instance-Level offset
errors ranging from 14.6% to 16.3%. Additionally, we developed a Distance-NMS
algorithm tailored for large-scale building offsets, significantly enhancing
the accuracy of predicted building offset angles and lengths in a
straightforward and efficient manner. To further validate the model's
robustness, we created a new test set using 0.5m remote sensing imagery from
Huizhou, China, for inference testing. Our code, training methods, and the
updated dataset will be accessable at https://github.com/likaiucas.
- Abstract(参考訳): 超高解像度リモートセンシング画像における屋根から足へのオフセットの正確な測定は,都市情報抽出タスクにおいて重要である。
ディープラーニングの助けを借りて、既存の手法は2段階のCNNモデルを使って特徴マップの構築に関心のある領域を抽出する。
第一段階では、地域提案ネットワーク(RPN)を適用して数千のROI(関心の領域)を抽出し、地域ベースの畳み込みニューラルネットワーク(RCNN)にポストインポートして所望の情報を抽出する。
しかし、柔軟性のないRPNのため、これらの手法には効果的なユーザインタラクションが欠如し、事例対応の困難に遭遇し、汎用人工知能の進歩に追随するのは難しい。
本稿では,対話型トランスフォーマーモデルとプロンプトエンコーダを組み合わせることで,屋根からフットプリントへのオフセットベクトルだけでなく,建物のセグメンテーションを正確に抽出する。
我々のモデルでは、屋根からフットプリントまでのオフセットの予測において一般的な問題に対して強力なモジュール、ROAMを調整した。
我々は,公開可能なbonaiデータセット上でのモデルの実現性をテストし,14.6%から16.3%までのプロンプトインスタンスレベルのオフセットエラーを大幅に削減した。
さらに,大規模ビルディングオフセットに適したDistance-NMSアルゴリズムを開発し,予測されたビルディングオフセット角度と長さの精度を,簡便かつ効率的に向上させた。
モデルの堅牢性をさらに検証するため,中国福州市から0.5mのリモートセンシング画像を用いて,推論テストのための新しいテストセットを構築した。
私たちのコード、トレーニングメソッド、更新されたデータセットはhttps://github.com/likaiucas.com/でアクセスできます。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models [14.023953508288628]
検索拡張生成(RAG)パイプラインは、質問応答(QA)などのタスクで一般的に使用される。
本稿では,利用可能な文書から合成データを生成する新しい手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2024-10-16T08:43:39Z) - Rethinking Iterative Stereo Matching from Diffusion Bridge Model Perspective [0.0]
本稿では,拡散モデルを反復最適化プロセスに組み込む新しいトレーニング手法を提案する。
我々のモデルはScene Flowデータセットで第1位であり、競合する手法と比較して7%以上の改善が達成されている。
論文 参考訳(メタデータ) (2024-04-13T17:31:11Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Denoising diffusion models for out-of-distribution detection [2.113925122479677]
我々は,確率拡散モデル(DDPM)を自己エンコーダの復号化として活用する。
DDPMを用いてノイズレベルの範囲の入力を再構成し,結果の多次元再構成誤差を用いてアウト・オブ・ディストリビューション入力を分類する。
論文 参考訳(メタデータ) (2022-11-14T20:35:11Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - Bayes DistNet -- A Robust Neural Network for Algorithm Runtime
Distribution Predictions [1.8275108630751844]
ランダム化アルゴリズムは制約満足度問題 (CSP) やブール満足度問題 (SAT) の多くの最先端の解法で用いられている。
従来の最先端の手法は、入力インスタンスが従う固定パラメトリック分布を直接予測しようとする。
この新モデルは,低観測環境下での堅牢な予測性能と,検閲された観測処理を実現する。
論文 参考訳(メタデータ) (2020-12-14T01:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。