論文の概要: Multi-Modal Building Inspection via Perceiver IO Fusion of Satellite and Street-Level Imagery
- arxiv url: http://arxiv.org/abs/2605.26381v1
- Date: Mon, 25 May 2026 23:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.500739
- Title: Multi-Modal Building Inspection via Perceiver IO Fusion of Satellite and Street-Level Imagery
- Title(参考訳): 衛星画像とストリートレベル画像の知覚型IO融合によるマルチモーダル建築検査
- Authors: Niels Sombekke, Rob G. J. Wijnhoven, Martin R. Oswald,
- Abstract要約: 本稿では、Perceiver IOアーキテクチャを用いて、衛星画像とストリートレベルの画像を融合するマルチモーダル分類フレームワークを提案する。
10か国にまたがる32,135の建物からなる大規模データセットを構築し、衛星画像と最大8つの街路ビューをペアリングする。
Perceiver IO融合モデルは、他のすべての融合戦略を改善し、ストリートレベルから見える属性に対して、クラスごとの実質的なゲインを得る。
- 参考スコア(独自算出の注目度): 18.60580673640467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a multi-modal classification framework that fuses satellite and street-level imagery through a Perceiver IO architecture operating on spatial patch tokens from a shared DINOv2 backbone. The design naturally handles a variable number of street-level views per building without padding or fixed-size pooling, and jointly predicts multi-label roof element and roof material classes. We construct a large-scale dataset of 32,135 buildings (61,672 segments) spanning ten countries, pairing satellite images with up to eight street-level views per segment and evaluating four masking strategies for isolating the target building. We propose an RGB-M masking strategy that appends the building footprint mask as a fourth input channel, providing a soft spatial prior that outperforms hard cropping across both modalities. The Perceiver IO fusion model improves over all other fusion strategies and yields substantial per-class gains for attributes visible from street level (e.g., +11.3 AP for slate, +1.3 AP for dormers), though the satellite-only baseline retains a slight advantage in macro-averaged mAP for classes that are predominantly visible from above. These results establish a scalable, flexible architecture for multi-modal building inspection that can accommodate heterogeneous inputs and multiple output tasks.
- Abstract(参考訳): 本稿では,共有DINOv2バックボーンから空間パッチトークンを操作するPerceiver IOアーキテクチャを用いて,衛星画像と街路画像を融合するマルチモーダル分類フレームワークを提案する。
このデザインは自然にパディングや固定サイズのプーリングなしで1棟あたりの路面ビューの変動を処理し、複数ラベルの屋根要素と屋根材クラスを共同で予測する。
10か国にまたがる32,135棟 (61,672区画) の大規模データセットを構築し, 衛星画像と最大8面の街路ビューをペアリングし, ターゲット建物を分離するための4つのマスキング戦略を評価する。
本稿では,建築用フットプリントマスクを第4入力チャネルとして付加するRGB-Mマスキング手法を提案する。
Perceiver IO融合モデルは、他のすべての融合戦略よりも改善され、ストリートレベルから見える属性(スレートでは +11.3 AP、寮では +1.3 AP)に対して、クラスごとの実質的なゲインが得られるが、衛星のみのベースラインは、上から主に見えるクラスでは、マクロ平均mAPにおいてわずかに有利である。
これらの結果は、異種入力と複数の出力タスクに対応可能なマルチモーダル建築検査のためのスケーラブルで柔軟なアーキテクチャを確立する。
関連論文リスト
- Joint Instance Segmentation and Geometric Attribute Regression for Roof Structures in Aerial Imagery [18.60580673640467]
本研究では, 単独の航空写真から, インスタンスレベルの屋根セグメントマスクを共同で予測する手法を提案する。
本稿では, 平坦な屋根セグメントの監視を抑える条件付き方位損失と, 対数正規化高さ表現という2つの重要なイノベーションを紹介する。
本手法は, 平均絶対誤差を屋根斜面で約4度, 方位で7度, 建築高さで1mとし, ケースセグメンテーションAP$_50$ of 0.566とした。
論文 参考訳(メタデータ) (2026-05-25T22:37:11Z) - Rethinking Efficient Hierarchical Mixing Architecture for Low-light RAW Image Enhancement [70.94252289772685]
高速低照度画像信号処理(ISP)のための階層混合アーキテクチャ(HiMA)を提案する。
HiMAはTransformerとMambaモジュールの相補的な長所を利用して、大規模かつ小規模な機能を処理する。
局所的な変動が強い不均一照明に対処するため,LoDA(Local Distribution Adjustment)を提案する。
さらに,第1段階からの復号化出力をフル活用するために,MPFモジュールを設計する。
論文 参考訳(メタデータ) (2025-10-17T10:09:38Z) - Hierarchical LoRA MoE for Efficient CTR Model Scaling [56.608809143548946]
HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
論文 参考訳(メタデータ) (2025-10-12T03:54:11Z) - CubistMerge: Spatial-Preserving Token Merging For Diverse ViT Backbones [0.7448254811651417]
ViTのバックボーンは、ウィンドウアテンション、SAMの相対的な位置埋め込み、DINOv3のRoPEといった空間設計を採用している。
本稿では,空間的整合性を維持し,空間的アーキテクチャとのシームレスな整合性を実現するための,シンプルで効果的なトークンマージ手法を提案する。
提案手法では, (i) 構成されたトークン配置を強制するための2次元削減戦略, (ii) 相対的なトークン位置を維持する空間認識型マージアルゴリズム, (iii) 新規な最大値/次元トークン表現を用いる。
論文 参考訳(メタデータ) (2025-09-26T01:59:29Z) - OpenFACADES: An Open Framework for Architectural Caption and Attribute Data Enrichment via Street View Imagery [9.111872424676617]
この研究は,クラウドソースデータを活用したオープンなフレームワークであるOpenFACADESを導入して,そのギャップを埋めるものである。
パノラマ画像におけるファサードの自動検出と、オブジェクトを全体的視点のビューに変換するための再投影アプローチの調整を行う。
第3に、マルチ属性予測とオープン語彙キャプションのためのオープンソースの大規模視覚言語モデル(VLM)の機能を活用し、検討する革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2025-04-01T08:20:13Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [68.18620488664187]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、密度分布を持つ。
各種ラベル付き環境下での多目的対象物に対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - Fine-grained building roof instance segmentation based on domain adapted
pretraining and composite dual-backbone [13.09940764764909]
本稿では,高解像度光衛星画像を用いた個々の建物の意味解釈を実現するための枠組みを提案する。
具体的には、レバレッジされたドメイン適応事前学習戦略と複合二重バックボーンは、非ネイティブな特徴学習を大いに促進する。
その結果,本手法は2023年のIEEE GRSS Data Fusion Contestの第一位に位置づけられた。
論文 参考訳(メタデータ) (2023-08-10T05:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。