論文の概要: UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction
- arxiv url: http://arxiv.org/abs/2512.12941v1
- Date: Mon, 15 Dec 2025 02:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.515979
- Title: UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction
- Title(参考訳): UAGLNet:建物抽出のための協調CNN変換器による不確実なグローバルローカル核融合ネットワーク
- Authors: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao,
- Abstract要約: リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
- 参考スコア(独自算出の注目度): 83.48950950780554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet
- Abstract(参考訳): リモートセンシング画像からの抽出は, 複雑な構造変化のため, 難しい課題である。
既存の手法では畳み込みブロックや自己アテンションブロックを用いてセグメンテーションモデルのマルチスケールの特徴を捉えるが、特徴ピラミッドの固有のギャップとグローバルな特徴統合の不足は不正確で曖昧な抽出結果をもたらす。
本稿では,不確実性モデリングの指導の下で高品質なグローバルローカルな視覚的セマンティクスを活用可能な,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
具体的には,CNNとトランスフォーマー層をそれぞれ異なる段階に導入し,局所的およびグローバルな視覚的意味をキャプチャする,協調型エンコーダを提案する。
ネットワークが深まると、局所的特徴とグローバル的特徴のギャップを狭めるために、中間的協調的相互作用ブロック(CIB)が設計されている。
その後,グローバル・ローカル・フュージョン(GLF)モジュールを提案する。
さらに,不確定領域におけるセグメンテーションのあいまいさを軽減するために,不確実性集約デコーダ(UAD)を提案し,画素単位の不確実性を明示的に推定し,セグメンテーション精度を高める。
大規模な実験により,本手法は他の最先端手法よりも優れた性能を示した。
私たちのコードはhttps://github.com/Dstate/UAGLNetで利用可能です。
関連論文リスト
- Stochastic Layer-wise Learning: Scalable and Efficient Alternative to Backpropagation [1.0285749562751982]
バックプロパゲーションは現代のディープラーニングを支えるものだが、グローバル同期への依存はスケーラビリティを制限し、高いメモリコストを発生させる。
対照的に、完全に局所的な学習ルールはより効率的であるが、コヒーレントなグローバルラーニングに必要な層間調整を維持するのに苦労することが多い。
本稿では,グローバルな目標を協調的なレイヤローカル更新に分解するレイヤワイズ学習アルゴリズムであるレイヤワイズ学習(SLL)を紹介する。
論文 参考訳(メタデータ) (2025-05-08T12:32:29Z) - Localization, balance and affinity: a stronger multifaceted collaborative salient object detector in remote sensing images [24.06927394483275]
ORSIにおいて,LBA-MCNetと呼ばれる,より強力な多面協調型サリエント物体検出器を提案する。
このネットワークは、ターゲットの正確な位置決め、詳細な機能のバランス、画像レベルのグローバルコンテキスト情報のモデリングに重点を置いている。
論文 参考訳(メタデータ) (2024-10-31T14:50:48Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - SWCF-Net: Similarity-weighted Convolution and Local-global Fusion for Efficient Large-scale Point Cloud Semantic Segmentation [10.328077317786342]
SWCF-Net という名前の類似度重み付き畳み込みとローカル・グローバル・フュージョン・ネットワークを提案する。
提案手法は計算コストを削減し,大規模点群を効率的に処理できる。
論文 参考訳(メタデータ) (2024-06-17T11:54:46Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。