論文の概要: AFM-Net: Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling for Remote Sensing Image Scene Classification
- arxiv url: http://arxiv.org/abs/2510.27155v1
- Date: Fri, 31 Oct 2025 03:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.972045
- Title: AFM-Net: Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling for Remote Sensing Image Scene Classification
- Title(参考訳): AFM-Net: リモートセンシング画像シーン分類のためのグローバルシーケンスモデリングを用いた高度なFusing Hierarchical CNNビジュアルプリミティブ
- Authors: Yuanhao Tang, Xuechao Zou, Zhengpei Hu, Junliang Xing, Chengkun Zhang, Jianqiang Huang,
- Abstract要約: AFM-Netは、2つの経路を通して効果的な局所的およびグローバルな共表現を実現する新しいフレームワークである。
AFM-Netの核となる革新は階層的融合機構(Hierarchical Fusion Mechanism)にある。
AID、NWPU-RESISC45、UC Mercedの実験では、AMM-Netは93.72、95.54、96.92パーセントの精度を得ており、性能と効率のバランスが取れた最先端の手法を上回っている。
- 参考スコア(独自算出の注目度): 32.67944942908809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image scene classification remains a challenging task, primarily due to the complex spatial structures and multi-scale characteristics of ground objects. Existing approaches see CNNs excel at modeling local textures, while Transformers excel at capturing global context. However, efficiently integrating them remains a bottleneck due to the high computational cost of Transformers. To tackle this, we propose AFM-Net, a novel Advanced Hierarchical Fusing framework that achieves effective local and global co-representation through two pathways: a CNN branch for extracting hierarchical visual priors, and a Mamba branch for efficient global sequence modeling. The core innovation of AFM-Net lies in its Hierarchical Fusion Mechanism, which progressively aggregates multi-scale features from both pathways, enabling dynamic cross-level feature interaction and contextual reconstruction to produce highly discriminative representations. These fused features are then adaptively routed through a Mixture-of-Experts classifier module, which dispatches them to the most suitable experts for fine-grained scene recognition. Experiments on AID, NWPU-RESISC45, and UC Merced show that AFM-Net obtains 93.72, 95.54, and 96.92 percent accuracy, surpassing state-of-the-art methods with balanced performance and efficiency. Code is available at https://github.com/tangyuanhao-qhu/AFM-Net.
- Abstract(参考訳): リモートセンシング画像シーンの分類は、主に複雑な空間構造と地上物体のマルチスケール特性のために、依然として困難な課題である。
既存のアプローチでは、CNNはローカルテクスチャのモデリングに優れ、Transformerはグローバルなコンテキストのキャプチャに優れています。
しかし、トランスフォーマーの計算コストが高いため、効率的な統合はボトルネックのままである。
そこで本稿では,AFM-Netを提案する。AFM-Netは,階層的な視覚的先行を抽出するCNNブランチと,効率的なグローバルシーケンスモデリングのためのMambaブランチという,局所的およびグローバルな効果的な共表現を実現する,新しい階層型Fusingフレームワークである。
AFM-Netの核となる革新は階層的融合機構(Hierarchical Fusion Mechanism)にある。このメカニズムは、両方の経路から段階的にマルチスケールの特徴を集約し、動的にクロスレベルな特徴相互作用と文脈的再構成を可能にし、高度に差別的な表現を生成する。
これらの融合した機能は、Mixture-of-Experts分類モジュールを介して適応的にルーティングされる。
AID、NWPU-RESISC45、UC Mercedの実験では、AMM-Netは93.72、95.54、96.92パーセントの精度を得ており、性能と効率のバランスが取れた最先端の手法を上回っている。
コードはhttps://github.com/tangyuanhao-qhu/AFM-Netで公開されている。
関連論文リスト
- MSLAU-Net: A Hybird CNN-Transformer Network for Medical Image Segmentation [7.826754189244901]
CNNベースの手法とトランスフォーマーベースの手法の両方が、医用画像分割タスクにおいて顕著な成功を収めている。
両パラダイムの長所を統合した新しいハイブリッドCNN-Transformerアーキテクチャ MSLAU-Netを提案する。
提案したMSLAU-Netには,2つの重要なアイデアが組み込まれている。まず,医療画像からマルチスケール特徴を効率的に抽出する,マルチスケール線形注意(multi-Scale Linear Attention)が導入されている。
第二に、マルチレベル特徴集約を行い、空間分解能を復元するトップダウン特徴集約機構を採用する。
論文 参考訳(メタデータ) (2025-05-24T18:48:29Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。