論文の概要: Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training
- arxiv url: http://arxiv.org/abs/2510.15527v1
- Date: Fri, 17 Oct 2025 10:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.586229
- Title: Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training
- Title(参考訳): 衛星画像分類のためのバランスの取れたマルチタスク注意:事前訓練なしにEuroSAT上で97.23%の精度を達成するための体系的アプローチ
- Authors: Aditya Vir,
- Abstract要約: 本研究は、衛星土地利用分類のための独自の畳み込みニューラルネットワークアーキテクチャを体系的に研究する。
事前訓練されたモデルに依存することなく、EuroSATデータセット上で97.23%のテスト精度を達成する。
我々の手法は、外部データを必要としない微調整されたResNet-50(98.57%)の1.34%で性能を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a systematic investigation of custom convolutional neural network architectures for satellite land use classification, achieving 97.23% test accuracy on the EuroSAT dataset without reliance on pre-trained models. Through three progressive architectural iterations (baseline: 94.30%, CBAM-enhanced: 95.98%, and balanced multi-task attention: 97.23%) we identify and address specific failure modes in satellite imagery classification. Our principal contribution is a novel balanced multi-task attention mechanism that combines Coordinate Attention for spatial feature extraction with Squeeze-Excitation blocks for spectral feature extraction, unified through a learnable fusion parameter. Experimental results demonstrate that this learnable parameter autonomously converges to alpha approximately 0.57, indicating near-equal importance of spatial and spectral modalities for satellite imagery. We employ progressive DropBlock regularization (5-20% by network depth) and class-balanced loss weighting to address overfitting and confusion pattern imbalance. The final 12-layer architecture achieves Cohen's Kappa of 0.9692 with all classes exceeding 94.46% accuracy, demonstrating confidence calibration with a 24.25% gap between correct and incorrect predictions. Our approach achieves performance within 1.34% of fine-tuned ResNet-50 (98.57%) while requiring no external data, validating the efficacy of systematic architectural design for domain-specific applications. Complete code, trained models, and evaluation scripts are publicly available.
- Abstract(参考訳): 本研究は、衛星土地利用分類のための独自の畳み込みニューラルネットワークアーキテクチャを体系的に研究し、事前訓練されたモデルに依存することなく、EuroSATデータセットで97.23%のテスト精度を達成した。
3つのプログレッシブ・アーキテクチャ・イテレーション(ベースライン:94.30%、CBAM-enhanced:95.98%、バランスの取れたマルチタスク・アテンション:97.23%)を通じて、衛星画像分類における特定の障害モードを特定し、対処する。
我々の主な貢献は、空間的特徴抽出のためのコーディネートアテンションとスペクトル特徴抽出のためのSqueeze-Excitationブロックを組み合わせた、学習可能な融合パラメータで統一された新しいマルチタスクアテンション機構である。
実験により、この学習可能なパラメータは約0.57に自律的に収束し、衛星画像の空間的・スペクトル的モダリティがほぼ等しく重要であることが示された。
オーバーフィッティングや混乱パターンの不均衡に対処するために,プログレッシブDropBlock正則化(ネットワーク深度5~20%)とクラスバランスの損失重み付けを採用している。
最後の12層アーキテクチャでは、コーエンのカッパは0.9692で、全てのクラスが94.46%の精度で、正確さと誤予測の間に24.25%の差がある信頼度校正を証明している。
提案手法は、外部データを必要としない微調整されたResNet-50(98.57%)の1.34%以内の性能を実現し、ドメイン固有のアプリケーションに対する体系的アーキテクチャ設計の有効性を検証する。
完全なコード、トレーニングされたモデル、評価スクリプトが公開されている。
関連論文リスト
- A Multimodal Approach to Heritage Preservation in the Context of Climate Change [0.0]
本稿では,センサデータ(温度,湿度)と視覚画像とを融合させて,遺産の重症度を予測する軽量なマルチモーダルアーキテクチャを提案する。
ストラスブール大聖堂からのデータでは、標準的なマルチモーダルアーキテクチャよりも43%向上した76.9%のアクク・レシーを達成した。
論文 参考訳(メタデータ) (2025-10-15T22:07:57Z) - CLAIRE: A Dual Encoder Network with RIFT Loss and Phi-3 Small Language Model Based Interpretability for Cross-Modality Synthetic Aperture Radar and Optical Land Cover Segmentation [1.1237223647481338]
本稿では、光学および合成開口レーダ(SAR)画像から、独立してモダリティ特有の特徴を抽出するデュアルエンコーダアーキテクチャを提案する。
この融合機構は、補完的な空間的特徴とテクスチャ的特徴を強調し、ネットワークがより詳細に多様な土地被覆パターンを捉えることを可能にする。
また,Small Language Model (Phi-3) によって生成される計量駆動推論モジュールを導入し,モデル予測のための専門家レベル,サンプル固有の正当性を生成する。
論文 参考訳(メタデータ) (2025-09-15T14:10:52Z) - Multispectral airborne laser scanning for tree species classification: a benchmark of machine learning and deep learning algorithms [3.9167717582896793]
マルチスペクトル空中レーザースキャン(ALS)は、自動点クラウド処理とツリーセグメンテーションにおいて有望であることを示す。
本研究は,木種分類のための機械学習およびディープラーニング手法のベンチマークを行うことにより,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-19T16:03:49Z) - Classification of Geographical Land Structure Using Convolution Neural Network and Transfer Learning [1.024113475677323]
本研究は, 都市計画・開発, 環境モニタリング, 災害管理など, 一連の応用を創出することができる。
本稿では、地理的な土地構造を分類するプロセスを自動化するための深層学習に基づくアプローチを開発した。
論文 参考訳(メタデータ) (2024-11-19T11:01:30Z) - Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - Touch Analysis: An Empirical Evaluation of Machine Learning
Classification Algorithms on Touch Data [7.018254711671888]
個人を正しく分類するための新しいDeep Neural Net(DNN)アーキテクチャを提案する。
新機能と既存の機能を組み合わせると、SVMとkNNはそれぞれ94.7%と94.6%の分類精度を達成した。
論文 参考訳(メタデータ) (2023-11-23T20:31:48Z) - Whole-body Detection, Recognition and Identification at Altitude and
Range [57.445372305202405]
多様なデータセットに基づいて評価したエンドツーエンドシステムを提案する。
我々のアプローチでは、一般的な画像データセットで検出器を事前トレーニングし、BRIARの複雑なビデオや画像でそれを微調整する。
屋内・屋外・航空シナリオにおける様々な範囲や角度の異なる条件下で徹底的な評価を行う。
論文 参考訳(メタデータ) (2023-11-09T20:20:23Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z) - Semi-Supervised Neural Architecture Search [185.0651567642238]
SemiNASは、多くの未ラベルアーキテクチャを活用する半教師付きニューラルアーキテクチャサーチ(NAS)アプローチである(評価なしで、ほぼコストがかからない)。
NASBench-101で94.02%のテスト精度を達成し、同じ数のアーキテクチャを使用する場合、すべてのベースラインを上回ります。
低リソース環境では97%のインテリジェンス率、ロバストネス環境では15%のテストエラー率、ベースラインではそれぞれ9%、7%の改善を実現している。
論文 参考訳(メタデータ) (2020-02-24T17:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。