論文の概要: BuildMamba: A Visual State-Space Based Model for Multi-Task Building Segmentation and Height Estimation from Satellite Images
- arxiv url: http://arxiv.org/abs/2603.08523v1
- Date: Mon, 09 Mar 2026 15:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.388178
- Title: BuildMamba: A Visual State-Space Based Model for Multi-Task Building Segmentation and Height Estimation from Satellite Images
- Title(参考訳): BuildMamba: 衛星画像からのマルチタスクビルディングセグメンテーションと高さ推定のためのビジュアルステートスペースベースモデル
- Authors: Sinan U. Ulu, A. Enes Doruk, I. Can Yagmur, Bahadir K. Gunturk, Oguz Hanoglu, Hasan F. Ates,
- Abstract要約: BuildMambaは、ビジュアルステートスペースモデルの線形時間グローバルモデリングを活用するために設計された統合マルチタスクフレームワークである。
DFC23ベンチマークでは0.93のIoUと1.77mのRMSEが達成され、高度推定では0.82mを超える。
- 参考スコア(独自算出の注目度): 0.6773121102591491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate building segmentation and height estimation from single-view RGB satellite imagery are fundamental for urban analytics, yet remain ill-posed due to structural variability and the high computational cost of global context modeling. While current approaches typically adapt monocular depth architectures, they often suffer from boundary bleeding and systematic underestimation of high-rise structures. To address these limitations, we propose BuildMamba, a unified multi-task framework designed to exploit the linear-time global modeling of visual state-space models. Motivated by the need for stronger structural coupling and computational efficiency, we introduce three modules: a Mamba Attention Module for dynamic spatial recalibration, a Spatial-Aware Mamba-FPN for multi-scale feature aggregation via gated state-space scans, and a Mask-Aware Height Refinement module using semantic priors to suppress height artifacts. Extensive experiments demonstrate that BuildMamba establishes a new performance upper bound across three benchmarks. Specifically, it achieves an IoU of 0.93 and RMSE of 1.77~m on DFC23 benchmark, surpassing state-of-the-art by 0.82~m in height estimation. Simulation results confirm the model's superior robustness and scalability for large-scale 3D urban reconstruction.
- Abstract(参考訳): 単一ビューRGB衛星画像からの正確なビルのセグメンテーションと高さ推定は、都市分析の基盤となっているが、構造的変動とグローバル・コンテキスト・モデリングの計算コストが高いため、未定のままである。
現在のアプローチは典型的には単分子深度アーキテクチャに適応するが、境界出血や高層構造物の体系的過小評価に悩まされることが多い。
これらの制約に対処するために,視覚的状態空間モデルの線形時間大域的モデリングを活用するために設計された,統合マルチタスクフレームワークであるBuildMambaを提案する。
動的空間再構成のためのMamba Attention Module、ゲート状態空間スキャンによるマルチスケール特徴集約のためのSpatial-Aware Mamba-FPN、高さアーティファクトを抑えるためにセマンティクスを用いたMask-Aware Height Refinement Moduleの3つのモジュールを紹介する。
大規模な実験では、BuildMambaが3つのベンチマークで新しいパフォーマンス上限を確立している。
具体的には、DFC23ベンチマークで0.93のIoUと1.77~mのRMSEを達成し、高さ推定で0.82~mを超える。
シミュレーションの結果,大規模3次元都市再建におけるモデルの優れたロバスト性とスケーラビリティが確認できた。
関連論文リスト
- Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery [60.51998732898099]
HMRMambaは3Dヒューマンメッシュリカバリのための新しいパラダイムである。
構造状態空間モデル(Structured State Space Models)をその効率性と長距離モデリングに利用した先駆者である。
まず、新しいデュアルスキャンのMambaアーキテクチャを特徴とするGeometry-Aware Lifting Moduleについて述べる。
論文 参考訳(メタデータ) (2026-01-29T08:05:02Z) - SasMamba: A Lightweight Structure-Aware Stride State Space Model for 3D Human Pose Estimation [0.8427427828815586]
関節間の局所的相互作用を動的に捉えるための構造認識型時間的畳み込みを提案する。
そこで我々は,マルチスケールなグローバルな構造表現を構築するために,ストライドに基づくスキャン戦略を適用した。
我々のモデルであるSasMambaは、既存のハイブリッドモデルと比較して、パラメータが大幅に少ない競争力のある3Dポーズ推定性能を実現する。
論文 参考訳(メタデータ) (2025-11-12T01:25:20Z) - MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection [4.757840725810513]
YOLOシリーズモデルは、速度と精度のバランスをとることで、強力なベンチマークを設定している。
トランスフォーマーは自己アテンション機構のため、計算の複雑さが高い。
精度と効率のバランスをとる新しいオブジェクト検出フレームワークであるMambaNeXt-YOLOを提案する。
論文 参考訳(メタデータ) (2025-06-04T07:46:24Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。