論文の概要: RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task
- arxiv url: http://arxiv.org/abs/2503.20382v1
- Date: Wed, 26 Mar 2025 10:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:24.575679
- Title: RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task
- Title(参考訳): RSRWKV:効率的なリモートセンシングビジョンタスクのための線形複雑2次元注意機構
- Authors: Chunshan Li, Rong Wang, Xiaofei Yang, Dianhui Chu,
- Abstract要約: 高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性による課題に直面している。
逐次処理と2次元空間推論を橋渡しする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
- 参考スコア(独自算出の注目度): 20.16344973940904
- License:
- Abstract: High-resolution remote sensing analysis faces challenges in global context modeling due to scene complexity and scale diversity. While CNNs excel at local feature extraction via parameter sharing, their fixed receptive fields fundamentally restrict long-range dependency modeling. Vision Transformers (ViTs) effectively capture global semantic relationships through self-attention mechanisms but suffer from quadratic computational complexity relative to image resolution, creating critical efficiency bottlenecks for high-resolution imagery. The RWKV model's linear-complexity sequence modeling achieves breakthroughs in NLP but exhibits anisotropic limitations in vision tasks due to its 1D scanning mechanism. To address these challenges, we propose RSRWKV, featuring a novel 2D-WKV scanning mechanism that bridges sequential processing and 2D spatial reasoning while maintaining linear complexity. This enables isotropic context aggregation across multiple directions. The MVC-Shift module enhances multi-scale receptive field coverage, while the ECA module strengthens cross-channel feature interaction and semantic saliency modeling. Experimental results demonstrate RSRWKV's superior performance over CNN and Transformer baselines in classification, detection, and segmentation tasks on NWPU RESISC45, VHR-10.v2, and GLH-Water datasets, offering a scalable solution for high-resolution remote sensing analysis.
- Abstract(参考訳): 高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性によるグローバルコンテキストモデリングの課題に直面している。
CNNはパラメータ共有による局所的特徴抽出に優れるが、その固定受容場は基本的に長距離依存性モデリングを制限している。
ViT(Vision Transformers)は、自己認識機構を通じて、グローバルな意味関係を効果的にキャプチャするが、画像解像度に対する2次計算の複雑さに悩まされ、高解像度画像にとって重要な効率ボトルネックが生じる。
RWKVモデルの線形複雑配列モデリングは、NLPのブレークスルーを達成するが、1Dスキャン機構による視覚タスクの異方性制限を示す。
これらの課題に対処するために,線形複雑性を維持しながら逐次処理と2次元空間推論をブリッジする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
これにより、複数の方向にわたる等方的コンテキストアグリゲーションが可能になる。
MVC-Shiftモジュールは、マルチスケールの受信フィールドカバレッジを強化し、ECAモジュールは、チャンネル間のフィーチャの相互作用とセマンティック・サリエンシ・モデリングを強化している。
RSRWKVは、NWPU RESISC45、VHR-10.v2、GLH-Waterデータセットの分類、検出、セグメンテーションタスクにおいて、CNNおよびTransformerベースラインよりも優れた性能を示し、高解像度リモートセンシング分析のためのスケーラブルなソリューションを提供する。
関連論文リスト
- VisionGRU: A Linear-Complexity RNN Model for Efficient Image Analysis [8.10783983193165]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は画像解析の主流モデルである。
本稿では,効率的な画像分類のための新しいRNNアーキテクチャであるVisionGRUを紹介する。
論文 参考訳(メタデータ) (2024-12-24T05:27:11Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - HSLiNets: Hyperspectral Image and LiDAR Data Fusion Using Efficient Dual Non-Linear Feature Learning Networks [7.06787067270941]
新しい線形特徴空間におけるハイパースペクトルイメージング(HSI)とLiDARデータの統合は、HSIに固有の高次元性と冗長性に起因する課題に対する有望な解決策を提供する。
本研究では、双方向逆畳み込み畳み込みニューラルネットワーク(CNN)経路と特殊空間解析ブロックを併用した、二重線型融合空間フレームワークを提案する。
提案手法は,データ処理や分類精度を向上するだけでなく,トランスフォーマーなどの先進モデルに係わる計算負担を軽減する。
論文 参考訳(メタデータ) (2024-11-30T01:08:08Z) - Remote Sensing Image Segmentation Using Vision Mamba and Multi-Scale Multi-Frequency Feature Fusion [9.098711843118629]
本稿では、状態空間モデル(SSM)を導入し、視覚マンバ(CVMH-UNet)に基づく新しいハイブリッドセマンティックセマンティックネットワークを提案する。
本手法は、クロス2Dスキャン(CS2D)を用いて、複数の方向からグローバル情報をフルにキャプチャする、クロス走査型視覚状態空間ブロック(CVSSBlock)を設計する。
ローカル情報取得におけるビジョン・マンバ(VMamba)の制約を克服するために畳み込みニューラルネットワークのブランチを組み込むことにより、このアプローチはグローバル機能とローカル機能の両方の包括的な分析を促進する。
論文 参考訳(メタデータ) (2024-10-08T02:17:38Z) - VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。