論文の概要: SceneMixer: Exploring Convolutional Mixing Networks for Remote Sensing Scene Classification
- arxiv url: http://arxiv.org/abs/2512.06877v1
- Date: Sun, 07 Dec 2025 15:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.570894
- Title: SceneMixer: Exploring Convolutional Mixing Networks for Remote Sensing Scene Classification
- Title(参考訳): SceneMixer:リモートセンシングシーン分類のための畳み込み混合ネットワークの探索
- Authors: Mohammed Q. Alkhatib, Ali Jamali, Swalpa Kumar Roy,
- Abstract要約: 本稿では,畳み込みミキサーのパラダイムに基づく軽量アーキテクチャを提案する。
AIDおよびEuroSATベンチマークで実験を行った。
提案したモデルでは、AIDデータセットでは74.7%、74.57%、73.79、EuroSATでは93.90%、93.93%、93.22の総合精度が達成された。
- 参考スコア(独自算出の注目度): 10.667165962654996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing scene classification plays a key role in Earth observation by enabling the automatic identification of land use and land cover (LULC) patterns from aerial and satellite imagery. Despite recent progress with convolutional neural networks (CNNs) and vision transformers (ViTs), the task remains challenging due to variations in spatial resolution, viewpoint, orientation, and background conditions, which often reduce the generalization ability of existing models. To address these challenges, this paper proposes a lightweight architecture based on the convolutional mixer paradigm. The model alternates between spatial mixing through depthwise convolutions at multiple scales and channel mixing through pointwise operations, enabling efficient extraction of both local and contextual information while keeping the number of parameters and computations low. Extensive experiments were conducted on the AID and EuroSAT benchmarks. The proposed model achieved overall accuracy, average accuracy, and Kappa values of 74.7%, 74.57%, and 73.79 on the AID dataset, and 93.90%, 93.93%, and 93.22 on EuroSAT, respectively. These results demonstrate that the proposed approach provides a good balance between accuracy and efficiency compared with widely used CNN- and transformer-based models. Code will be publicly available on: https://github.com/mqalkhatib/SceneMixer
- Abstract(参考訳): リモートセンシングシーンの分類は、地上および衛星画像から土地利用と土地被覆(LULC)パターンの自動識別を可能にすることで、地球観測において重要な役割を担っている。
畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の最近の進歩にもかかわらず、既存のモデルの一般化能力を低下させる空間分解能、視点、方向、背景条件のばらつきにより、タスクは依然として困難なままである。
これらの課題に対処するために,畳み込みミキサーのパラダイムに基づく軽量アーキテクチャを提案する。
このモデルでは,複数スケールでの深度方向の畳み込みによる空間混合と,ポイントワイズ操作によるチャネル混合とを交互に行い,パラメータ数と計算量を低く保ちながら,局所情報と文脈情報の両方を効率的に抽出することができる。
AIDおよびEuroSATベンチマークで大規模な実験を行った。
提案したモデルでは、AIDデータセットでは74.7%、74.57%、73.79、EuroSATでは93.90%、93.93%、93.22の総合精度が達成された。
これらの結果から,提案手法はCNNモデルやトランスフォーマーモデルと比較して精度と効率のバランスが良いことを示した。
コードは、https://github.com/mqalkhatib/SceneMixerで公開される。
関連論文リスト
- Generative MIMO Beam Map Construction for Location Recovery and Beam Tracking [67.65578956523403]
本稿では,スパースチャネル状態情報(CSI)から位置ラベルを直接復元する生成フレームワークを提案する。
生のCSIを直接格納する代わりに、小型の低次元無線地図の埋め込みを学び、生成モデルを利用して高次元CSIを再構築する。
数値実験により,NLOSシナリオにおける局所化精度が30%以上向上し,20%のキャパシティゲインが得られることが示された。
論文 参考訳(メタデータ) (2025-11-21T07:25:49Z) - ChromaFormer: A Scalable and Accurate Transformer Architecture for Land Cover Classification [11.348747673057405]
モデルパラメータの桁違いの差を評価できる多スペクトル変圧器モデル群を提案する。
UNetなど,従来のアーキテクチャよりも桁違いに大きいモデルでは,精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-03-11T15:24:50Z) - CAE-Net: Generalized Deepfake Image Detection using Convolution and Attention Mechanisms with Spatial and Frequency Domain Features [0.6700983301090583]
クラス不均衡に対処し,アンサンブルベースのアーキテクチャであるemphCAE-Netを考案した。
私たちのアーキテクチャは、畳み込みと注目に基づくアンサンブルネットワークで構成されており、3つの異なるニューラルネットワークアーキテクチャを採用している。
EfficientNet B0アーキテクチャは90.79%、ConvNeXtアーキテクチャは89.49%、DeiTアーキテクチャは89.32%である。
論文 参考訳(メタデータ) (2025-02-15T06:02:11Z) - Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:38Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - GANav: Group-wise Attention Network for Classifying Navigable Regions in
Unstructured Outdoor Environments [54.21959527308051]
本稿では,RGB画像から,オフロード地形および非構造環境における安全かつ航行可能な領域を識別する新しい学習手法を提案する。
本手法は,粒度の粗いセマンティックセグメンテーションを用いて,そのナビビリティレベルに基づいて地形分類群を分類する。
RUGD と RELLIS-3D のデータセットを広範囲に評価することにより,我々の学習アルゴリズムがナビゲーションのためのオフロード地形における視覚知覚の精度を向上させることを示す。
論文 参考訳(メタデータ) (2021-03-07T02:16:24Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。