論文の概要: Enhancing Crop Segmentation in Satellite Image Time Series with Transformer Networks
- arxiv url: http://arxiv.org/abs/2412.01944v1
- Date: Mon, 02 Dec 2024 20:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:26.258482
- Title: Enhancing Crop Segmentation in Satellite Image Time Series with Transformer Networks
- Title(参考訳): 変圧器ネットワークを用いた衛星画像時系列における作物の分節化の促進
- Authors: Ignazio Gallo, Mattia Gatti, Nicola Landro, Christian Loschiavo, Mirco Boschetti, Riccardo La Grassa,
- Abstract要約: 本稿では,衛星画像時系列(SITS)の収量分割に特化したトランスフォーマーベースSwin UNETRモデルの改訂版を提案する。
提案したモデルは大きな進歩を示し、検証精度96.14%、テスト精度95.26%をミュンヘンデータセットで達成している。
実験結果から,CNNと同等あるいは優れた精度を達成できると同時に,トレーニング時間を大幅に短縮できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.339000056057208
- License:
- Abstract: Recent studies have shown that Convolutional Neural Networks (CNNs) achieve impressive results in crop segmentation of Satellite Image Time Series (SITS). However, the emergence of transformer networks in various vision tasks raises the question of whether they can outperform CNNs in this task as well. This paper presents a revised version of the Transformer-based Swin UNETR model, specifically adapted for crop segmentation of SITS. The proposed model demonstrates significant advancements, achieving a validation accuracy of 96.14% and a test accuracy of 95.26% on the Munich dataset, surpassing the previous best results of 93.55% for validation and 92.94% for the test. Additionally, the model's performance on the Lombardia dataset is comparable to UNet3D and superior to FPN and DeepLabV3. Experiments of this study indicate that the model will likely achieve comparable or superior accuracy to CNNs while requiring significantly less training time. These findings highlight the potential of transformer-based architectures for crop segmentation in SITS, opening new avenues for remote sensing applications.
- Abstract(参考訳): 近年の研究では、衛星画像時系列(SITS)の収量分割において、畳み込みニューラルネットワーク(CNN)が驚くべき結果をもたらすことが示されている。
しかし、様々な視覚タスクにおけるトランスフォーマーネットワークの出現は、このタスクにおいてCNNよりも優れているかどうかという疑問を提起する。
本稿では,SITSの作物分割に特化して適応したTransformerベースのSwin UNETRモデルの改訂版を提案する。
提案したモデルは、検証精度96.14%、テスト精度95.26%をミュンヘンデータセットで達成し、検証の93.55%、テストの92.94%を上回り、大幅な進歩を示した。
さらに、LombardiaデータセットのパフォーマンスはUNet3Dに匹敵し、FPNやDeepLabV3よりも優れている。
実験結果から,CNNと同等あるいは優れた精度を達成できると同時に,トレーニング時間を大幅に短縮できる可能性が示唆された。
これらの知見は、SITSにおける作物分割のためのトランスフォーマーベースのアーキテクチャの可能性を強調し、リモートセンシングアプリケーションのための新たな道を開く。
関連論文リスト
- GenFormer -- Generated Images are All You Need to Improve Robustness of Transformers on Small Datasets [11.343905946690352]
我々は、生成した画像を利用したデータ拡張戦略であるGenFormerを提案し、小型画像分類タスクにおける変換器の精度とロバスト性を改善する。
総合評価では、Tiny ImageNetの新たなテストセットとして、Tiny ImageNetV2, -R, -Aを提案する。
我々は,訓練データに制限のある困難条件下でのアプローチの有効性を実証し,精度と堅牢性の両方において有意な改善が示された。
論文 参考訳(メタデータ) (2024-08-26T09:26:08Z) - Kolmogorov-Arnold Network for Satellite Image Classification in Remote Sensing [4.8951183832371]
本稿では,コンボリューションニューラルネットワーク(CNN)モデルとKAN(Kolmogorov-Arnold Network)を統合したリモートセンシングシーン分類タスクを提案する。
KCNと呼ばれる新しい手法は、従来のマルチ層パーセプトロン(MLP)をKANに置き換えて、分類性能を向上させることを目的としている。
我々はVGG16, MobileNetV2, EfficientNet, ConvNeXt, ResNet101, Vision Transformer (ViT) など,複数のCNNベースのモデルを用いて, Kanと組み合わせて性能評価を行った。
論文 参考訳(メタデータ) (2024-06-02T03:11:37Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Lightweight Real-time Semantic Segmentation Network with Efficient
Transformer and CNN [34.020978009518245]
LETNetと呼ばれる軽量なリアルタイムセマンティックセグメンテーションネットワークを提案する。
LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。
挑戦的なデータセットで実施された実験は、LETNetが精度と効率のバランスにおいて優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-02-21T07:16:53Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z) - Compounding the Performance Improvements of Assembled Techniques in a
Convolutional Neural Network [6.938261599173859]
基本CNNモデルの精度とロバスト性を改善する方法について述べる。
提案したResNet-50は、トップ1の精度を76.3%から82.78%、mCEを76.0%から48.9%、mFRを57.7%から32.3%に改善した。
CVPR 2019でiFood Competition Fine-Grained Visual Recognitionで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-17T12:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。