論文の概要: ChromaFormer: A Scalable and Accurate Transformer Architecture for Land Cover Classification
- arxiv url: http://arxiv.org/abs/2503.08534v1
- Date: Tue, 11 Mar 2025 15:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:05.956484
- Title: ChromaFormer: A Scalable and Accurate Transformer Architecture for Land Cover Classification
- Title(参考訳): ChromaFormer: 土地被覆分類のためのスケーラブルで正確なトランスフォーマーアーキテクチャ
- Authors: Mingshi Li, Dusan Grujicic, Ben Somers, Stien Heremans, Steven De Saeger, Matthew B. Blaschko,
- Abstract要約: モデルパラメータの桁違いの差を評価できる多スペクトル変圧器モデル群を提案する。
UNetなど,従来のアーキテクチャよりも桁違いに大きいモデルでは,精度が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 11.348747673057405
- License:
- Abstract: Remote sensing imagery from systems such as Sentinel provides full coverage of the Earth's surface at around 10-meter resolution. The remote sensing community has transitioned to extensive use of deep learning models due to their high performance on benchmarks such as the UCMerced and ISPRS Vaihingen datasets. Convolutional models such as UNet and ResNet variations are commonly employed for remote sensing but typically only accept three channels, as they were developed for RGB imagery, while satellite systems provide more than ten. Recently, several transformer architectures have been proposed for remote sensing, but they have not been extensively benchmarked and are typically used on small datasets such as Salinas Valley. Meanwhile, it is becoming feasible to obtain dense spatial land-use labels for entire first-level administrative divisions of some countries. Scaling law observations suggest that substantially larger multi-spectral transformer models could provide a significant leap in remote sensing performance in these settings. In this work, we propose ChromaFormer, a family of multi-spectral transformer models, which we evaluate across orders of magnitude differences in model parameters to assess their performance and scaling effectiveness on a densely labeled imagery dataset of Flanders, Belgium, covering more than 13,500 km^2 and containing 15 classes. We propose a novel multi-spectral attention strategy and demonstrate its effectiveness through ablations. Furthermore, we show that models many orders of magnitude larger than conventional architectures, such as UNet, lead to substantial accuracy improvements: a UNet++ model with 23M parameters achieves less than 65% accuracy, while a multi-spectral transformer with 655M parameters achieves over 95% accuracy on the Biological Valuation Map of Flanders.
- Abstract(参考訳): センチネルのようなシステムからのリモートセンシング画像は、地球の表面を約10メートルの解像度でカバーする。
リモートセンシングコミュニティは、UCMercedやISPRS Vaihingenデータセットなどのベンチマークで高いパフォーマンスを実現したため、ディープラーニングモデルの広範な利用へと移行してきた。
UNetやResNetのような畳み込みモデルは、一般的にリモートセンシングに使用されるが、RGB画像のために開発されたため、通常は3つのチャンネルしか受け入れない。
近年、リモートセンシングのためにいくつかのトランスフォーマーアーキテクチャが提案されているが、大規模なベンチマークは行われておらず、典型的にはSalinas Valleyのような小さなデータセットで使用されている。
一方、一部の国の第一級行政区画全体に対して、密集した土地利用ラベルを得ることが可能である。
法則のスケーリングは、より大規模なマルチスペクトル変換器モデルが、これらの設定におけるリモートセンシング性能に大きな飛躍をもたらすことを示唆している。
本研究では,多スペクトルトランスフォーマーモデル群であるChromaFormerを提案し,その性能と拡張性を評価し,13500km^2以上をカバーし,クラスが15以上あるベルギーのフランダースの濃密なラベル付きデータセット上で評価する。
本稿では,新しいマルチスペクトルアテンション戦略を提案し,その有効性を示す。
さらに,23Mパラメータを持つUNet++モデルでは65%未満の精度が得られ,655Mパラメータを持つマルチスペクトル変換器ではFlandersの生物評価マップ上で95%以上の精度が達成されている。
関連論文リスト
- LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution [1.747623282473278]
複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。
熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
論文 参考訳(メタデータ) (2024-11-12T12:23:19Z) - HorGait: A Hybrid Model for Accurate Gait Recognition in LiDAR Point Cloud Planar Projections [8.56443762544299]
HorGaitは、LiDARからの3Dポイント雲の平面投影における歩行認識のためのTransformerアーキテクチャを備えたハイブリッドモデルである。
SUSTech1Kデータセット上のTransformerアーキテクチャメソッド間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-11T02:12:41Z) - Improving satellite imagery segmentation using multiple Sentinel-2 revisits [0.0]
我々は、微調整された事前学習されたリモートセンシングモデルのフレームワークにおいて、リビジョンを使用する最善の方法を探る。
モデル潜在空間における複数の再試行からの融合表現は、他の再試行法よりも優れていることが判明した。
SWINトランスフォーマーベースのアーキテクチャは、U-netやViTベースのモデルよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T21:13:33Z) - Energy-Based Models for Cross-Modal Localization using Convolutional
Transformers [52.27061799824835]
GPSのない衛星画像に対して、距離センサを搭載した地上車両を位置決めする新しい枠組みを提案する。
本稿では, 畳み込み変換器を用いて, 高精度な計量レベルの局所化を行う手法を提案する。
我々は、エンドツーエンドでモデルをトレーニングし、KITTI、Pandaset、カスタムデータセットの最先端技術よりも高い精度でアプローチを実証する。
論文 参考訳(メタデータ) (2023-06-06T21:27:08Z) - Graph Neural Networks Extract High-Resolution Cultivated Land Maps from
Sentinel-2 Image Series [33.10103896300028]
本研究では,10mSentinel-2マルチスペクトル画像系列から2.5mの耕作地図を抽出する手法を提案する。
実験結果から,我々のモデルは,高品質なセグメンテーションマップを提供することによって,古典的および深層機械学習技術よりも優れていることがわかった。
このような記憶の脆弱さは、ミッションにおいて重要なものであり、軌道にいるとモデルとAIによる衛星とのアップリンクを可能にします。
論文 参考訳(メタデータ) (2022-08-03T21:19:06Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - DA-Transformer: Distance-aware Transformer [87.20061062572391]
DA-Transformerは、実際の距離を利用することができる距離対応トランスである。
本稿では,実距離を利用した距離認識変換器であるDA-Transformerを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:09:01Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。