論文の概要: EMRA-proxy: Enhancing Multi-Class Region Semantic Segmentation in Remote Sensing Images with Attention Proxy
- arxiv url: http://arxiv.org/abs/2505.17665v1
- Date: Fri, 23 May 2025 09:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.961724
- Title: EMRA-proxy: Enhancing Multi-Class Region Semantic Segmentation in Remote Sensing Images with Attention Proxy
- Title(参考訳): EMRA-proxy:注意プロキシを用いたリモートセンシング画像におけるマルチクラス領域セマンティックセマンティックセグメンテーションの強化
- Authors: Yichun Yu, Yuqing Lan, Zhihuan Xing, Xiaoyi Yang, Tingyue Tang, Dan Yu,
- Abstract要約: 本稿では,CRA (Contextual Region Attention) とGCR (Global Class Refinement) の2つのコンポーネントからなる新しいアプローチであるRegional-Aware Proxy Network (RAPNet)を提案する。
RAPNetは、より柔軟なセグメンテーションのために、リージョンレベルで動作している。
3つの公開データセットの実験では、RAPNetは最先端の手法よりも優れ、より優れたマルチクラスのセグメンテーション精度を実現する。
- 参考スコア(独自算出の注目度): 2.3727914512000714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution remote sensing (HRRS) image segmentation is challenging due to complex spatial layouts and diverse object appearances. While CNNs excel at capturing local features, they struggle with long-range dependencies, whereas Transformers can model global context but often neglect local details and are computationally expensive.We propose a novel approach, Region-Aware Proxy Network (RAPNet), which consists of two components: Contextual Region Attention (CRA) and Global Class Refinement (GCR). Unlike traditional methods that rely on grid-based layouts, RAPNet operates at the region level for more flexible segmentation. The CRA module uses a Transformer to capture region-level contextual dependencies, generating a Semantic Region Mask (SRM). The GCR module learns a global class attention map to refine multi-class information, combining the SRM and attention map for accurate segmentation.Experiments on three public datasets show that RAPNet outperforms state-of-the-art methods, achieving superior multi-class segmentation accuracy.
- Abstract(参考訳): 高分解能リモートセンシング(HRRS)画像セグメンテーションは、複雑な空間配置と多様な物体の外観のために困難である。
CNNは、局所的な特徴を捉えるのが得意だが、長距離依存に苦慮する一方、Transformerはグローバルなコンテキストをモデル化できるが、ローカルな詳細を無視することが多いため、計算コストがかかる。
グリッドベースのレイアウトに依存する従来の方法とは異なり、RAPNetはより柔軟なセグメンテーションのためにリージョンレベルで動作している。
CRAモジュールはTransformerを使用して、領域レベルのコンテキスト依存をキャプチャし、セマンティックリージョンマスク(SRM)を生成する。
GCRモジュールは,SRMとアテンションマップを組み合わせることで,グローバルクラスのアテンションマップを学習し,精度の高いセグメンテーションを行う。
関連論文リスト
- A Novel Shape Guided Transformer Network for Instance Segmentation in Remote Sensing Images [4.14360329494344]
本稿では,SGTN(Shape Guided Transformer Network)を提案する。
自己アテンション機構のグローバルなコンテキストモデリング能力に着想を得て,LSwinと呼ばれる効率的なトランスフォーマーエンコーダを提案する。
我々のSGTNは、2つの単一クラス公開データセット上での最高平均精度(AP)スコアを達成する。
論文 参考訳(メタデータ) (2024-12-31T09:25:41Z) - LOGCAN++: Adaptive Local-global class-aware network for semantic segmentation of remote sensing imagery [6.715911889086415]
LOGCAN++はリモートセンシング画像用にカスタマイズされたセマンティックセグメンテーションモデルである。
GCA(Global Class Awareness)モジュールとLCA(Local Class Awareness)モジュールで構成されている。
LCAモジュールは、グローバルクラス表現と間接的にピクセルを関連付けるために、中間知覚要素としてローカルクラス表現を生成する。
論文 参考訳(メタデータ) (2024-06-24T10:12:03Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - LoG-CAN: local-global Class-aware Network for semantic segmentation of
remote sensing images [4.124381172041927]
リモートセンシング画像にグローバルクラス認識(GCA)モジュールとローカルクラス認識(LCA)モジュールを備えたマルチスケールセマンティックセマンティックセマンティクスネットワークであるLoG-CANを提案する。
特に、LCAモジュールは、背景干渉を回避するためにクラスワイドコンテキストモデリングのグローバル表現をキャプチャし、LCAモジュールは、クラス内のばらつきを減らすために、クラスをグローバルクラス表現と間接的に関連付ける、中間認識要素としてローカルクラス表現を生成する。
論文 参考訳(メタデータ) (2023-03-14T09:44:29Z) - Semantic Segmentation by Early Region Proxy [53.594035639400616]
本稿では,学習可能な領域のテッセルレーションとしてイメージを解釈することから始まる,新規で効率的なモデリングについて述べる。
領域のコンテキストをモデル化するために,Transformerを用いてシーケンス・ツー・シーケンス方式で領域を符号化する。
現在、符号化された領域埋め込みの上に、領域ごとのセマンティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-03-26T10:48:32Z) - PRA-Net: Point Relation-Aware Network for 3D Point Cloud Analysis [56.91758845045371]
我々はポイント関係認識ネットワーク(PRA-Net)という新しいフレームワークを提案する。
領域内構造学習(ISL)モジュールと領域間関係学習(IRL)モジュールで構成されている。
形状分類,キーポイント推定,部分セグメンテーションを含む複数の3次元ベンチマーク実験により,PRA-Netの有効性と性能が検証された。
論文 参考訳(メタデータ) (2021-12-09T13:24:43Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - CSRNet: Cascaded Selective Resolution Network for Real-time Semantic
Segmentation [18.63596070055678]
本稿では,リアルタイムセグメンテーションの性能向上を図るために,光カスケード選択分解ネットワーク(CSRNet)を提案する。
提案するネットワークは,低解像度から高解像度までの特徴情報を統合した3段階セグメンテーションシステムを構築している。
2つのよく知られたデータセットの実験により、提案したCSRNetはリアルタイムセグメンテーションの性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2021-06-08T14:22:09Z) - LRC-Net: Learning Discriminative Features on Point Clouds by Encoding
Local Region Contexts [65.79931333193016]
本稿では,LRC-Net(Local-Region-Context Network)を提案する。
LRC-Netは、局所領域内および周辺領域間の微粒なコンテキストを同時に符号化する。
その結果, LRC-Netは形状分類や形状分割の応用において最先端の手法と競合することがわかった。
論文 参考訳(メタデータ) (2020-03-18T14:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。