論文の概要: Prompt-Driven Building Footprint Extraction in Aerial Images with Offset-Building Model
- arxiv url: http://arxiv.org/abs/2310.16717v4
- Date: Sat, 22 Feb 2025 06:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:55.152433
- Title: Prompt-Driven Building Footprint Extraction in Aerial Images with Offset-Building Model
- Title(参考訳): オフセット構築モデルを用いた空中画像からのプロンプト駆動型建築用フットプリント抽出
- Authors: Kai Li, Yupeng Deng, Yunlong Kong, Diyou Liu, Jingbo Chen, Yu Meng, Junxian Ma, Chenhao Wang,
- Abstract要約: インスタンスセグメンテーションに基づく既存の手法は、大規模データ生成に拡張された場合、一般化の貧弱さに悩まされる。
本稿では,エンドツーエンドのアルゴリズムを高速な手法に変換するための新しいオフセット構築モデル(OBM)を提案する。
我々のモデルはオフセット誤差を16.6%削減し、他のモデルに比べて10.8%改善する。
- 参考スコア(独自算出の注目度): 13.09874563780039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: More accurate extraction of invisible building footprints from very-high-resolution (VHR) aerial images relies on roof segmentation and roof-to-footprint offset extraction. Existing methods based on instance segmentation suffer from poor generalization when extended to large-scale data production and fail to achieve low-cost human interaction. This prompt paradigm inspires us to design a promptable framework for roof and offset extraction, and transforms end-to-end algorithms into promptable methods. Within this framework, we propose a novel Offset-Building Model (OBM). Based on prompt prediction, we first discover a common pattern of predicting offsets and tailored Distance-NMS (DNMS) algorithms for offset optimization. To rigorously evaluate the algorithm's capabilities, we introduce a prompt-based evaluation method, where our model reduces offset errors by 16.6\% and improves roof Intersection over Union (IoU) by 10.8\% compared to other models. Leveraging the common patterns in predicting offsets, DNMS algorithms enable models to further reduce offset vector loss by 6.5\%. To further validate the generalization of models, we tested them using a newly proposed test set, Huizhou test set, with over 7,000 manually annotated instance samples. Our algorithms and dataset will be available at https://github.com/likaiucas/OBM.
- Abstract(参考訳): 超高解像度(VHR)空中画像からの見えない建物のフットプリントのより正確な抽出は、屋根のセグメンテーションと屋根からフットプリントまでのオフセット抽出に依存している。
インスタンスセグメンテーションに基づく既存の手法は、大規模データ生成に拡張された場合の一般化が悪く、低コストなヒューマンインタラクションを達成できなかった。
このプロンプトパラダイムは、屋上およびオフセット抽出のためのプロンプト可能なフレームワークの設計を促し、エンドツーエンドのアルゴリズムをプロンプト可能なメソッドに変換する。
本稿では,新しいOffset-Building Model (OBM)を提案する。
即時予測に基づいて、オフセット最適化のためのオフセット予測と調整された距離-NMS(DNMS)アルゴリズムの共通パターンを最初に発見する。
アルゴリズムの性能を厳格に評価するために,本モデルでは,オフセット誤差を16.6倍に削減し,屋根のIoUを10.8倍改善するプロンプトベース評価手法を提案する。
オフセット予測における共通パターンを活用することで、DNMSアルゴリズムはオフセットベクトル損失をさらに6.5\%削減することができる。
モデルの一般化をさらに検証するため,新たに提案されたテストセットであるHuizhouテストセットを用いて,7000以上の手作業によるアノテーション付きインスタンスサンプルを用いて検証を行った。
アルゴリズムとデータセットはhttps://github.com/likaiucas/OBM.orgで公開されます。
関連論文リスト
- Retrieval Augmented Anomaly Detection (RAAD): Nimble Model Adjustment Without Retraining [3.037546128667634]
Retrieval Augmented Anomaly Detectionは、Retrieval Augmented Generationからインスピレーションを得た新しい手法である。
人間の注釈付きサンプルはベクトルストアに送られ、モデル推論のために、非常に次の処理バッチでモデル出力を変更することができる。
論文 参考訳(メタデータ) (2025-02-26T20:17:16Z) - Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models [14.023953508288628]
検索拡張生成(RAG)パイプラインは、質問応答(QA)などのタスクで一般的に使用される。
本稿では,利用可能な文書から合成データを生成する新しい手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2024-10-16T08:43:39Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Rethinking Iterative Stereo Matching from Diffusion Bridge Model Perspective [0.0]
本稿では,拡散モデルを反復最適化プロセスに組み込む新しいトレーニング手法を提案する。
我々のモデルはScene Flowデータセットで第1位であり、競合する手法と比較して7%以上の改善が達成されている。
論文 参考訳(メタデータ) (2024-04-13T17:31:11Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Denoising diffusion models for out-of-distribution detection [2.113925122479677]
我々は,確率拡散モデル(DDPM)を自己エンコーダの復号化として活用する。
DDPMを用いてノイズレベルの範囲の入力を再構成し,結果の多次元再構成誤差を用いてアウト・オブ・ディストリビューション入力を分類する。
論文 参考訳(メタデータ) (2022-11-14T20:35:11Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Anomaly Detection with Test Time Augmentation and Consistency Evaluation [13.709281244889691]
本稿では,TTA-AD(Test Time Augmentation Anomaly Detection)と呼ばれる簡易かつ効果的な異常検出アルゴリズムを提案する。
我々は、分散データよりもトレーニングされたネットワーク上でのオリジナルバージョンと拡張バージョンについて、分散データの方が一貫性のある予測を楽しむことを観察した。
様々な高解像度画像ベンチマークデータセットの実験は、TTA-ADが同等またはより良い検出性能を達成することを示した。
論文 参考訳(メタデータ) (2022-06-06T04:27:06Z) - Bayes DistNet -- A Robust Neural Network for Algorithm Runtime
Distribution Predictions [1.8275108630751844]
ランダム化アルゴリズムは制約満足度問題 (CSP) やブール満足度問題 (SAT) の多くの最先端の解法で用いられている。
従来の最先端の手法は、入力インスタンスが従う固定パラメトリック分布を直接予測しようとする。
この新モデルは,低観測環境下での堅牢な予測性能と,検閲された観測処理を実現する。
論文 参考訳(メタデータ) (2020-12-14T01:15:39Z) - Neural Model-based Optimization with Right-Censored Observations [42.530925002607376]
ニューラルネットワーク(NN)は、モデルベースの最適化手順のコアでうまく機能することが実証されている。
トレーニングされた回帰モデルは,いくつかのベースラインよりも優れた予測品質が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T07:32:30Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。