論文の概要: GMBFormer: An NDVI-Guided Global Memory Bank Transformer for Urban Green-Space Extraction from Ultra-High-Resolution Imagery
- arxiv url: http://arxiv.org/abs/2606.06363v1
- Date: Thu, 04 Jun 2026 16:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.961825
- Title: GMBFormer: An NDVI-Guided Global Memory Bank Transformer for Urban Green-Space Extraction from Ultra-High-Resolution Imagery
- Title(参考訳): GMBFormer:超高解像度画像からの都市緑地抽出のためのNDVI型グローバルメモリバンクトランス
- Authors: Hao Lei, Xi Cheng, Chenlu Shu, Zhiheng Chen, Zhengjie Duan, Haoyu Wang, Zhanfeng Shen,
- Abstract要約: GMBFormerは、隣接駆動機能伝搬を選択的に類似性駆動型プロトタイプ検索に置き換えるフレームワークである。
実験では、自作のChengdu UHRデータセットを使用し、7700のラベル付き512 x 512パッチを使用する。
- 参考スコア(独自算出の注目度): 9.108740363564026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Urban green-space extraction from ultra-high-resolution (UHR) imagery is commonly performed patch by patch, which limits semantic reuse among spatially separated but visually similar vegetation patterns. Directly injecting the Normalized Difference Vegetation Index (NDVI) into red-green-blue (RGB) backbones can also blur the roles of visual appearance learning and physical vegetation confidence. We propose GMBFormer, a SegFormer-based framework that replaces adjacency-driven feature propagation with selective, similarity-driven prototype retrieval. Only RGB channels enter the backbone and decoder, while NDVI is decoupled as a physics-informed gate that admits high-confidence vegetation descriptors into a compact global memory bank through momentum updates. During training and inference, the current patch queries stored prototypes through memory-mediated cross-attention, and the retrieved response is integrated with bounded overhead. Experiments use a self-constructed Chengdu UHR dataset with 7,700 labeled 512 x 512 patches and two reduced-label settings derived from the public International Society for Photogrammetry and Remote Sensing (ISPRS) Potsdam dataset. Under the same training and evaluation protocol, GMBFormer obtains mean intersection over union (mIoU)/mean Dice (mDice) scores of 89.25%/94.31%, 92.17%/95.92%, and 83.72%/90.86%, respectively, improving the controlled SegFormer-B4 baseline in each setting. Ablation studies indicate that decoupled NDVI admission, memory retrieval, capacity, and momentum jointly shape the final performance.
- Abstract(参考訳): 超高解像度(UHR)画像からの都市緑地抽出はパッチによって一般的に行われ、空間的に分離されているが視覚的に類似した植生パターン間のセマンティックリユースを制限する。
正常化差分植生指数(NDVI)を赤緑色(RGB)のバックボーンに直接注入することで、視覚的外観学習と物理的植生の信頼性の役割を曖昧にすることができる。
本稿では,SegFormerベースのフレームワークであるGMBFormerを提案する。
RGBチャネルのみがバックボーンとデコーダに入る一方、NDVIは物理インフォームドゲートとして分離され、高信頼の植生記述子を運動量更新を通じてコンパクトなグローバルメモリバンクに格納する。
トレーニングと推論の間、現在のパッチクエリはメモリ経由のクロスアテンションを通じてプロトタイプを格納し、検索されたレスポンスはバウンダリのオーバーヘッドと統合される。
実験では、自作のChengdu UHRデータセットを使用し、7,700のラベル付き512 x 512パッチと、ISPRS(Public International Society for Photogrammetry and Remote Sensing) Potsdamデータセットから派生した2つのリミットラベル設定を使用する。
同じトレーニングと評価のプロトコルの下で、GMBFormerは平均交叉(mIoU)/平均Dice(mDice)スコアを89.25%/94.31%、92.17%/95.92%、83.72%/90.86%と取得し、各設定における制御されたSegFormer-B4ベースラインを改善した。
アブレーション研究は、NDVIの入院、記憶の検索、容量、運動量との分離が最終的なパフォーマンスを共同で形成することを示唆している。
関連論文リスト
- Context-Aware Semantic Segmentation via Stage-Wise Attention [0.10995326465245929]
CASWiT(Context-Aware Stage-Wise Transformer)は,グローバルキューを微細なUHR機能に注入する,デュアルブランチのスウィンベースアーキテクチャである。
クロスアテンションとゲート機能インジェクションを組み合わせたクロススケールフュージョンモジュールは、高解像度トークンをコンテキストと統合する。
大規模IGN FLAIR-HUB航空データセットの実験は、CASWiTの有効性を実証している。
論文 参考訳(メタデータ) (2026-01-16T14:06:46Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - RGB-D Video Object Segmentation via Enhanced Multi-store Feature Memory [34.406308400305385]
RGB-D (RGB-D) Video Object (VOS) は、RGBのきめ細かいテクスチャ情報を奥行きの幾何学的手がかりと統合することを目的としている。
本稿では,ロバストセグメンテーションのためのマルチストア機能メモリを用いた新しいRGB-D VOSを提案する。
本稿では,最新のRGB-D VOSベンチマークにおいて,提案手法の最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-23T07:31:37Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。