論文の概要: GCRPNet: Graph-Enhanced Contextual and Regional Perception Network For Salient Object Detection in Optical Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2508.10542v1
- Date: Thu, 14 Aug 2025 11:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.286748
- Title: GCRPNet: Graph-Enhanced Contextual and Regional Perception Network For Salient Object Detection in Optical Remote Sensing Images
- Title(参考訳): GCRPNet:光リモートセンシング画像における有意物体検出のためのグラフ強化コンテキスト認識ネットワーク
- Authors: Mengyu Ren, Yutong Li, Hua Li, Runmin Cong, Sam Kwong,
- Abstract要約: 本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
- 参考スコア(独自算出の注目度): 60.296124001189646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection (SOD) in optical remote sensing images (ORSIs) faces numerous challenges, including significant variations in target scales and low contrast between targets and the background. Existing methods based on vision transformers (ViTs) and convolutional neural networks (CNNs) architectures aim to leverage both global and local features, but the difficulty in effectively integrating these heterogeneous features limits their overall performance. To overcome these limitations, we propose a graph-enhanced contextual and regional perception network (GCRPNet), which builds upon the Mamba architecture to simultaneously capture long-range dependencies and enhance regional feature representation. Specifically, we employ the visual state space (VSS) encoder to extract multi-scale features. To further achieve deep guidance and enhancement of these features, we first design a difference-similarity guided hierarchical graph attention module (DS-HGAM). This module strengthens cross-layer interaction capabilities between features of different scales while enhancing the model's structural perception,allowing it to distinguish between foreground and background more effectively. Then, we design the LEVSS block as the decoder of GCRPNet. This module integrates our proposed adaptive scanning strategy and multi-granularity collaborative attention enhancement module (MCAEM). It performs adaptive patch scanning on feature maps processed via multi-scale convolutions, thereby capturing rich local region information and enhancing Mamba's local modeling capability. Extensive experimental results demonstrate that the proposed model achieves state-of-the-art performance, validating its effectiveness and superiority.
- Abstract(参考訳): 光リモートセンシング画像(ORSI)におけるSODは、ターゲットスケールの大幅な変化や、ターゲットと背景とのコントラストの低さなど、多くの課題に直面している。
視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)アーキテクチャに基づく既存の手法は、グローバルな特徴とローカルな特徴の両方を活用することを目的としている。
これらの制約を克服するために,Mambaアーキテクチャ上に構築されたGCRPNet(Graph-enhanced contextual and Regional perception Network)を提案する。
具体的には、視覚状態空間(VSS)エンコーダを用いて、マルチスケールの特徴を抽出する。
これらの特徴のより深いガイダンスと強化を実現するため、まず差分類似性誘導階層グラフアテンションモジュール(DS-HGAM)を設計する。
このモジュールは、異なるスケールの特徴間の層間相互作用能力を強化し、モデルの構造的知覚を高め、前景と背景をより効果的に区別することを可能にする。
次に,GCRPNetのデコーダとしてLEVSSブロックを設計する。
本モジュールは,提案した適応走査戦略と多粒度協調注意強調モジュール(MCAEM)を統合した。
マルチスケールの畳み込みによって処理される特徴マップに適応的なパッチスキャンを実行することで、リッチなローカルな地域情報をキャプチャし、Mambaのローカルなモデリング能力を向上する。
実験結果から,提案モデルが最先端性能を実現し,その有効性と優越性を検証した。
関連論文リスト
- Spatial-Geometry Enhanced 3D Dynamic Snake Convolutional Neural Network for Hyperspectral Image Classification [12.168520751389622]
ディープニューラルネットワークは、ハイパースペクトル画像分類においていくつかの課題に直面している。
これには、複雑でスパースな地上オブジェクト分布、小さなクラスタ構造、細長いマルチブランチ機能が含まれる。
本稿では,改良された3次元DenseNetモデルに基づく空間幾何学拡張3次元ダイナミックスネークネットワーク(SG-DSCNet)を提案する。
論文 参考訳(メタデータ) (2025-04-06T12:21:39Z) - Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - Threshold Attention Network for Semantic Segmentation of Remote Sensing Images [3.5449012582104795]
自己認識機構(SA)はセグメンテーションネットワークの設計に有効な手法である。
セマンティックセグメンテーションのための新しいしきい値注意機構(TAM)を提案する。
TAMに基づいて,セマンティックセグメンテーションのためのしきい値注意ネットワーク(TANet)を提案する。
論文 参考訳(メタデータ) (2025-01-14T10:09:55Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では、その後の注意機構をよりよく見る能力を高めるステップワイド・パッチ・マージ(SPM)を提案する。
コードはhttps://github.com/Yonghao-Yu/StepwisePatchMerging.comでリリースされた。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - SENetV2: Aggregated dense layer for channelwise and global
representations [0.0]
我々は,Squeeze残余モジュール内に,多分岐密度層である新しい多層パーセプトロンを導入する。
この融合により、チャネルワイドパターンを捕捉し、グローバルな知識を持つネットワークの能力が向上する。
ベンチマークデータセットの広範な実験を行い、モデルを検証し、確立したアーキテクチャと比較する。
論文 参考訳(メタデータ) (2023-11-17T14:10:57Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。