論文の概要: Vision Transformers and Convolutional Neural Networks for Land Use Scene Classification
- arxiv url: http://arxiv.org/abs/2605.21268v1
- Date: Wed, 20 May 2026 14:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.740052
- Title: Vision Transformers and Convolutional Neural Networks for Land Use Scene Classification
- Title(参考訳): 土地利用シーン分類のための視覚変換器と畳み込みニューラルネットワーク
- Authors: Arun D. Kulkarni,
- Abstract要約: リモートセンシング画像からの土地利用シーン分類(LUSC)は,環境モニタリング,都市計画,持続可能な資源管理において重要な役割を担っている。
本稿では、リモートセンシング土地利用シーン分類のためのビジョントランスフォーマーとCNNに基づくアーキテクチャの比較評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Land Use Scene Classification (LUSC) from remote sensing imagery plays a critical role in environmental monitoring, urban planning, and sustainable resource management. In recent years, deep learning methods have significantly advanced the state of the art, with Convolutional Neural Networks (CNNs) dominating the field because of their strong ability to capture local spatial features. However, the emergence of Vision Transformers (ViTs) has introduced a new paradigm that models long-range dependencies through self-attention mechanisms, potentially enabling improved global context understanding. This paper presents a comparative assessment of Vision Transformers and CNN-based architecture for remote sensing land use scene classification. Representative CNN models, such as AlexNet, is evaluated alongside the Vision Transformer (ViT) using benchmark remote sensing datasets, including the UC Merced Land Use and EuroSAT Land Use datasets. The study examines classification accuracy, precision, recall, F1-score, and computational complexity to provide a comprehensive performance comparison. Experimental results demonstrate that CNNs perform robustly on datasets with limited training samples and strong local texture characteristics, whereas Vision Transformers exhibit superior performance in capturing global spatial relationships in complex scenes when sufficient training data are available. However, ViTs typically require greater computational resources and larger training datasets to achieve optimal performance. The findings of this study provide insights into the strengths and limitations of both architectures and offer guidance for selecting appropriate models for remote sensing land use scene classification applications.
- Abstract(参考訳): リモートセンシング画像からの土地利用シーン分類(LUSC)は,環境モニタリング,都市計画,持続可能な資源管理において重要な役割を担っている。
近年,局所的な空間的特徴を捉える能力が強く,畳み込みニューラルネットワーク(CNN)がこの分野を支配している。
しかし、ビジョントランスフォーマー(ViT)の出現は、自己注意機構を通じて長距離依存をモデル化する新しいパラダイムを導入し、グローバルコンテキスト理解の改善を可能にしている。
本稿では、リモートセンシング土地利用シーン分類のためのビジョントランスフォーマーとCNNに基づくアーキテクチャの比較評価を行う。
AlexNetのような代表的CNNモデルは、UC Merced Land UseやEuroSAT Land Useデータセットを含むベンチマークリモートセンシングデータセットを使用してViT(Vision Transformer)と共に評価される。
本研究は、総合的な性能比較を提供するために、分類精度、精度、リコール、F1スコア、計算複雑性について検討する。
実験結果から,CNNは限られたトレーニングサンプルと強い局所テクスチャ特性を持つデータセット上で頑健に機能することが示された。
しかし、ViTは通常、最適なパフォーマンスを達成するために、より大きな計算リソースとより大きなトレーニングデータセットを必要とする。
本研究は,両建築物の強度と限界を把握し,リモートセンシング土地利用シーン分類アプリケーションに適したモデルを選択するためのガイダンスを提供する。
関連論文リスト
- Training a Custom CNN on Five Heterogeneous Image Datasets [1.4583375893645076]
本研究では,農業・都市領域にまたがる5つのデータセットを対象としたCNNアーキテクチャの有効性について検討した。
これらのデータセットには、照明の差、解像度、環境の複雑さ、クラス不均衡など、さまざまな課題が導入されている。
我々は、ResNet-18やVGG-16など、確立したディープアーキテクチャとともに、軽量でタスク固有のカスタムCNNを評価し、スクラッチとトランスファーラーニングの両方を用いて訓練した。
論文 参考訳(メタデータ) (2026-01-08T08:44:17Z) - A Comparative Study of Vision Transformers and CNNs for Few-Shot Rigid Transformation and Fundamental Matrix Estimation [3.5684665108045377]
視覚変換器(ViT)と大規模畳み込みニューラルネット(CNN)は、事前訓練された特徴表現を通じてコンピュータビジョンを再構築した。
本研究は,1)画像間の2次元剛性変換を推定し,2)ステレオ画像対の基本行列を予測する。
経験的比較分析は、スクラッチからのトレーニングと同様、ViTsは大規模なダウンストリームデータシナリオの洗練時にCNNを上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-06T13:18:27Z) - On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery [0.0]
サイドスキャンソナー (SSS) 画像は海底の人工物体の分類においてユニークな課題を呈している。
本稿では、SSS画像のバイナリ分類タスクによく使用されるCNNアーキテクチャとともに、VTモデルの性能を厳格に比較する。
ViTベースのモデルは、f1スコア、精度、リコール、精度の指標で優れた分類性能を示す。
論文 参考訳(メタデータ) (2024-09-18T14:36:50Z) - StrideNET: Swin Transformer for Terrain Recognition with Dynamic Roughness Extraction [0.0]
本稿では、地形認識と暗黙的特性推定のために設計された新しいデュアルブランチアーキテクチャであるStrideNETを提案する。
この研究の意味は、環境モニタリング、土地利用、土地被覆分類(LULC)、災害対応、精密農業など、様々な応用にまで及んでいる。
論文 参考訳(メタデータ) (2024-04-20T04:51:59Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Efficient Hybrid Transformer: Learning Global-local Context for Urban
Sence Segmentation [11.237929167356725]
都市景観画像のセマンティックセグメンテーションのための効率的なハイブリッドトランスフォーマ(EHT)を提案する。
EHTはCNNとTransformerを利用して、グローバルなローカルコンテキストを学び、特徴表現を強化する。
提案されたEHTはUAVidテストセットで67.0% mIoUを達成し、他の軽量モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-18T13:55:38Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。