論文の概要: RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model
- arxiv url: http://arxiv.org/abs/2403.07564v2
- Date: Sun, 14 Apr 2024 14:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 20:21:55.038077
- Title: RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model
- Title(参考訳): RSBuilding:基礎モデルによる一般的なリモートセンシング画像の抽出と変化検出に向けて
- Authors: Mingze Wang, Lili Su, Cilin Yan, Sheng Xu, Pengcheng Yuan, Xiaolong Jiang, Baochang Zhang,
- Abstract要約: 本稿では、基礎モデルの観点から、RSBuildingと呼ばれる総合的なリモートセンシング画像構築モデルを提案する。
RSBuildingはクロスシーンの一般化とタスク理解を強化するように設計されている。
我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。
- 参考スコア(独自算出の注目度): 22.56227565913003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intelligent interpretation of buildings plays a significant role in urban planning and management, macroeconomic analysis, population dynamics, etc. Remote sensing image building interpretation primarily encompasses building extraction and change detection. However, current methodologies often treat these two tasks as separate entities, thereby failing to leverage shared knowledge. Moreover, the complexity and diversity of remote sensing image scenes pose additional challenges, as most algorithms are designed to model individual small datasets, thus lacking cross-scene generalization. In this paper, we propose a comprehensive remote sensing image building understanding model, termed RSBuilding, developed from the perspective of the foundation model. RSBuilding is designed to enhance cross-scene generalization and task universality. Specifically, we extract image features based on the prior knowledge of the foundation model and devise a multi-level feature sampler to augment scale information. To unify task representation and integrate image spatiotemporal clues, we introduce a cross-attention decoder with task prompts. Addressing the current shortage of datasets that incorporate annotations for both tasks, we have developed a federated training strategy to facilitate smooth model convergence even when supervision for some tasks is missing, thereby bolstering the complementarity of different tasks. Our model was trained on a dataset comprising up to 245,000 images and validated on multiple building extraction and change detection datasets. The experimental results substantiate that RSBuilding can concurrently handle two structurally distinct tasks and exhibits robust zero-shot generalization capabilities.
- Abstract(参考訳): 建物のインテリジェントな解釈は、都市計画・管理、マクロ経済分析、人口動態などにおいて重要な役割を果たしている。
リモートセンシング画像構築解釈は、主に建物抽出と変更検出を含む。
しかし、現在の方法論はしばしばこれら2つのタスクを独立したエンティティとして扱うため、共有知識の活用に失敗する。
さらに、リモートセンシング画像シーンの複雑さと多様性は、ほとんどのアルゴリズムが個々の小さなデータセットをモデル化するように設計されており、クロスシーンの一般化が欠如しているため、さらなる課題をもたらす。
本稿では,基礎モデルの観点から,RSBuildingと呼ばれる総合的リモートセンシング画像構築理解モデルを提案する。
RSBuildingはクロスシーンの一般化とタスクの普遍性を高めるように設計されている。
具体的には、ファンデーションモデルの事前知識に基づいて画像の特徴を抽出し、スケール情報を増やすためのマルチレベル特徴サンプリングを考案する。
タスク表現を統一し、画像の時空間的手がかりを統合するために、タスクプロンプト付きクロスアテンションデコーダを導入する。
両方のタスクにアノテーションを組み込んだデータセットの不足に対処するため、いくつかのタスクの監督が欠如している場合でも、スムーズなモデル収束を促進するためのフェデレーショントレーニング戦略を開発し、異なるタスクの相補性を強化した。
我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。
実験結果は、RSBuildingが2つの構造的に異なるタスクを同時に処理し、堅牢なゼロショット一般化能力を示すことを実証した。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for
Complex Visual Reasoning Tasks [4.093474663507322]
ブリッジアーキテクチャは、VQA、キャプション、画像検索といったタスクを解決するために、画像空間からテキスト空間へのプロジェクトである。
我々はNLVR2データセットの従来のブリッジアーキテクチャを拡張し、細粒度オブジェクト推論をファシリケートするためにオブジェクトレベル機能を追加する。
我々の分析では、ブリッジアーキテクチャにオブジェクトレベル機能を追加しても役に立ちませんし、NLVR2のような複雑な推論タスクにおいて、マルチモーダルデータでの事前トレーニングが良いパフォーマンスの鍵であることを示しています。
論文 参考訳(メタデータ) (2023-07-31T03:57:31Z) - Building Extraction from Remote Sensing Images via an Uncertainty-Aware
Network [18.365220543556113]
ビルの抽出は、都市計画や都市動態モニタリングなど、多くの応用において重要な役割を担っている。
本稿では,この問題を緩和するために,新規で簡単なUncertainty-Aware Network(UANet)を提案する。
その結果、提案したUANetは、他の最先端アルゴリズムよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-07-23T12:42:15Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Self-supervised Correlation Mining Network for Person Image Generation [9.505343361614928]
人物画像生成は、ソース画像の非剛性変形を実現することを目的としている。
特徴空間のソース画像を再構成する自己教師付き相関マイニングネットワーク(SCM-Net)を提案する。
クロススケールポーズ変換の忠実度を向上させるために,グラフに基づく身体構造保持損失を提案する。
論文 参考訳(メタデータ) (2021-11-26T03:57:46Z) - A Multi-Task Deep Learning Framework for Building Footprint Segmentation [0.0]
足跡線構築タスクのための共同最適化方式を提案する。
また,画像再構成と建物足跡境界分割という2つの補助タスクも導入する。
特に、深層マルチタスク学習(MTL)ベースの統合完全畳み込みフレームワークを提案します。
論文 参考訳(メタデータ) (2021-04-19T15:07:27Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。