論文の概要: Remote Sensing Image Classification Using Deep Ensemble Learning
- arxiv url: http://arxiv.org/abs/2603.05844v1
- Date: Fri, 06 Mar 2026 02:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.971783
- Title: Remote Sensing Image Classification Using Deep Ensemble Learning
- Title(参考訳): ディープ・アンサンブル・ラーニングを用いたリモートセンシング画像分類
- Authors: Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda,
- Abstract要約: リモートセンシング画像分類のためのCNNとViTの長所を組み合わせた融合モデルを提案する。
提案手法は、UC Merced, RSSCN7, MSRSIデータセットでそれぞれ98.10パーセント、94.46パーセント、95.45パーセントの精度を達成している。
- 参考スコア(独自算出の注目度): 4.055490935347531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing imagery plays a crucial role in many applications and requires accurate computerized classification techniques. Reliable classification is essential for transforming raw imagery into structured and usable information. While Convolutional Neural Networks (CNNs) are mostly used for image classification, they excel at local feature extraction, but struggle to capture global contextual information. Vision Transformers (ViTs) address this limitation through self attention mechanisms that model long-range dependencies. Integrating CNNs and ViTs, therefore, leads to better performance than standalone architectures. However, the use of additional CNN and ViT components does not lead to further performance improvement and instead introduces a bottleneck caused by redundant feature representations. In this research, we propose a fusion model that combines the strengths of CNNs and ViTs for remote sensing image classification. To overcome the performance bottleneck, the proposed approach trains four independent fusion models that integrate CNN and ViT backbones and combine their outputs at the final prediction stage through ensembling. The proposed method achieves accuracy rates of 98.10 percent, 94.46 percent, and 95.45 percent on the UC Merced, RSSCN7, and MSRSI datasets, respectively. These results outperform competing architectures and highlight the effectiveness of the proposed solution, particularly due to its efficient use of computational resources during training.
- Abstract(参考訳): リモートセンシング画像は多くのアプリケーションにおいて重要な役割を担い、正確なコンピュータ分類技術を必要とする。
信頼性の高い分類は、生画像を構造化され、使用可能な情報に変換するのに不可欠である。
畳み込みニューラルネットワーク(CNN)は主に画像分類に使用されるが、局所的な特徴抽出に優れ、グローバルな文脈情報を捉えるのに苦労している。
視覚変換器(ViT)は、長距離依存をモデル化する自己注意機構を通じて、この制限に対処する。
そのため、CNNとViTを統合することで、スタンドアロンアーキテクチャよりもパフォーマンスが向上する。
しかし、追加のCNNとViTコンポーネントを使用することでさらなるパフォーマンス向上は得られず、代わりに冗長な特徴表現によるボトルネックがもたらされる。
本研究では,リモートセンシング画像分類におけるCNNとViTの強みを組み合わせた融合モデルを提案する。
性能ボトルネックを克服するため、提案手法では、CNNとViTのバックボーンを統合し、最終的な予測段階で出力を結合する4つの独立した融合モデルを訓練する。
提案手法は、UC Merced, RSSCN7, MSRSIデータセットでそれぞれ98.10パーセント、94.46パーセント、95.45パーセントの精度を達成している。
これらの結果は競合するアーキテクチャよりも優れており、特にトレーニング中に計算資源を効率的に活用するため、提案手法の有効性を強調している。
関連論文リスト
- Enhanced Convolutional Neural Networks for Improved Image Classification [0.40964539027092917]
CIFAR-10は、小規模のマルチクラスデータセットの分類モデルの性能を評価するために広く使用されているベンチマークである。
本稿では,より深い畳み込みブロック,バッチ正規化,ドロップアウト正規化を統合したCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-02T04:32:25Z) - Residual Feature-Reutilization Inception Network for Image Classification [1.7200496706831436]
特徴情報の効果的取得はコンピュータビジョンの分野において非常に重要である。
本稿では,ResFRI(ResFRI)やSplit-ResFRI(Split-ResFRI)からなる新しいCNNアーキテクチャを提案する。
我々は, モデルサイズが近似的であり, 追加データを使用しないという前提の下で, 他の近代モデルと比較して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2024-12-27T03:55:25Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - ConViViT -- A Deep Neural Network Combining Convolutions and Factorized
Self-Attention for Human Activity Recognition [3.6321891270689055]
RGBビデオを用いた行動認識のためのハイブリッドアーキテクチャにおいて,CNNとトランスフォーマーの長所を生かした新しい手法を提案する。
我々のアーキテクチャは, HMDB51, UCF101, ETRI-Activity3Dで90.05 %, 99.6%, 95.09%のSOTA結果を得た。
論文 参考訳(メタデータ) (2023-10-22T21:13:43Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Fusion of CNNs and statistical indicators to improve image
classification [65.51757376525798]
畳み込みネットワークは過去10年間、コンピュータビジョンの分野を支配してきた。
この傾向を長引かせる主要な戦略は、ネットワーク規模の拡大によるものだ。
我々は、異種情報ソースを追加することは、より大きなネットワークを構築するよりもCNNにとって費用対効果が高いと仮定している。
論文 参考訳(メタデータ) (2020-12-20T23:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。