論文の概要: Onboard Satellite Image Classification for Earth Observation: A Comparative Study of ViT Models
- arxiv url: http://arxiv.org/abs/2409.03901v2
- Date: Mon, 21 Oct 2024 23:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 23:11:54.773664
- Title: Onboard Satellite Image Classification for Earth Observation: A Comparative Study of ViT Models
- Title(参考訳): 衛星画像を用いた地球観測のための衛星画像分類 : ViTモデルの比較検討
- Authors: Thanh-Dung Le, Vu Nguyen Ha, Ti Ti Nguyen, Geoffrey Eappen, Prabhu Thiruvasagam, Luis M. Garces-Socarras, Hong-fu Chou, Jorge L. Gonzalez-Rios, Juan Carlos Merlano-Duncan, Symeon Chatzinotas,
- Abstract要約: 本研究は,衛星データ処理における土地利用分類において,最も効果的な事前学習モデルを特定することに焦点を当てた。
我々は、従来のCNNベース、ResNetベース、および様々な事前学習された視覚変換器モデルの性能を比較した。
特にMobileViTV2とEfficientViT-M2は,スクラッチからトレーニングしたモデルよりも精度と効率が優れていた。
- 参考スコア(独自算出の注目度): 28.69148416385582
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study focuses on identifying the most effective pre-trained model for land use classification in onboard satellite processing, emphasizing achieving high accuracy, computational efficiency, and robustness against noisy data conditions commonly encountered during satellite-based inference. Through extensive experimentation, we compare the performance of traditional CNN-based, ResNet-based, and various pre-trained vision Transformer models. Our findings demonstrate that pre-trained Vision Transformer (ViT) models, particularly MobileViTV2 and EfficientViT-M2, outperform models trained from scratch in terms of accuracy and efficiency. These models achieve high performance with reduced computational requirements and exhibit greater resilience during inference under noisy conditions. While MobileViTV2 has excelled on clean validation data, EfficientViT-M2 has proved more robust when handling noise, making it the most suitable model for onboard satellite EO tasks. Our experimental results demonstrate that EfficientViT-M2 is the optimal choice for reliable and efficient RS-IC in satellite operations, achieving 98.76 % of accuracy, precision, and recall. Precisely, EfficientViT-M2 delivers the highest performance across all metrics, excels in training efficiency (1,000s) and inference time (10s), and demonstrates greater robustness (overall robustness score of 0.79). Consequently, EfficientViT-M2 consumes 63.93 % less power than MobileViTV2 (79.23 W) and 73.26 % less power than SwinTransformer (108.90 W). This highlights its significant advantage in energy efficiency.
- Abstract(参考訳): 本研究は、衛星データ処理における土地利用分類における最も効果的な事前学習モデルを特定することに焦点を当て、衛星ベースの推論でよく見られるノイズの多いデータ条件に対して高い精度、計算効率、ロバスト性を実現することを強調する。
広汎な実験により、従来のCNNベース、ResNetベース、および様々な事前学習された視覚変換器モデルの性能を比較した。
特にMobileViTV2とEfficientViT-M2は,スクラッチからトレーニングしたモデルよりも精度と効率が優れていた。
これらのモデルは計算要求を減らして高い性能を達成し、雑音条件下での推論においてより高いレジリエンスを示す。
MobileViTV2はクリーンな検証データに優れていたが、EfficientViT-M2はノイズを扱う際により堅牢であることが証明され、衛星EOタスクに最も適したモデルとなった。
実験の結果,衛星操作における信頼性と効率的なRS-ICの選択には,効率の高いViT-M2が最適であり,精度,精度,リコールの98.76%を達成できることがわかった。
正確には、EfficientViT-M2はすべてのメトリクスで最高のパフォーマンスを提供し、トレーニング効率(1,000秒)と推論時間(10秒)に優れ、より堅牢性(全ロバストネススコア0.79)を示す。
その結果、EfficientViT-M2はMobileViTV2 (79.23 W)よりも63.93 %電力を消費し、SwinTransformer (108.90 W)より73.26 %電力を消費する。
これはエネルギー効率における大きな優位性を強調している。
関連論文リスト
- Real-time Monitoring of Lower Limb Movement Resistance Based on Deep Learning [0.0]
リアルタイム下肢運動抵抗モニタリングは,リハビリテーションや運動訓練などの臨床・スポーツ分野での様々な用途において重要である。
効率的な特徴抽出のためにMobileNetV3を統合した新しいMobile Multi-Task Learning Network (MMTL-Net)を提案する。
MMTL-Netの利点は、精度の向上、レイテンシの低減、計算効率の向上であり、リアルタイムアプリケーションに非常に適している。
論文 参考訳(メタデータ) (2024-10-13T18:19:48Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Efficient Modulation for Vision Networks [122.1051910402034]
我々は、効率的なビジョンネットワークのための新しい設計である効率的な変調を提案する。
変調機構が特に効率的なネットワークに適していることを実証する。
私たちのネットワークは、精度と効率のトレードオフをうまく達成できます。
論文 参考訳(メタデータ) (2024-03-29T03:48:35Z) - FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Supervised Machine Learning for Effective Missile Launch Based on Beyond
Visual Range Air Combat Simulations [0.19573380763700707]
我々は、リサンプリング技術を用いて予測モデルを改善し、精度、精度、リコール、f1スコアを解析する。
最高のf1スコアを持つモデルはそれぞれ0.379と0.465の値を持ち、再サンプリング技術は22.69%増加した。
機械学習モデルに基づく意思決定支援ツールの開発が可能であり,BVR空戦における飛行品質の向上が期待できる。
論文 参考訳(メタデータ) (2022-07-09T04:06:00Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。