論文の概要: Efficient Spatio-Temporal Vegetation Pixel Classification with Vision Transformers
- arxiv url: http://arxiv.org/abs/2605.00296v1
- Date: Thu, 30 Apr 2026 23:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.791672
- Title: Efficient Spatio-Temporal Vegetation Pixel Classification with Vision Transformers
- Title(参考訳): 視覚変換器を用いた高能率時空間植生図分類
- Authors: Alan Gomes, Anderson Gonçalves, Samuel Felipe dos Santos, Nathan Felipe Alves, Magna Soelma Beserra de Moura, Bruna de Costa Alberton, Leonor Patricia C. Morellato, Ricardo da Silva Torres, Jurandy Almeida,
- Abstract要約: 無人航空機(UAV)と近地カメラは高解像度の監視を可能にする。
視覚変換器 (ViTs) は, 資源制約のある現象モニタリングシステムにおいて, 堅牢でスケーラブルなソリューションであることを示す。
- 参考スコア(独自算出の注目度): 2.8841865688650263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Plant phenology-the study of recurrent life cycle events-is essential for understanding ecosystem dynamics and their responses to climate change impacts. While Unmanned Aerial Vehicles (UAVs) and near-surface cameras enable high-resolution monitoring, identifying plant species across time remains computationally challenging. State-of-the-art approaches, specifically Multi-Temporal Convolutional Networks (CNNs), rely on rigid multi-branch architectures that scale poorly with longer time series and require large spatial context windows. In this paper, we present an extensive study on optimizing Vision Transformers (ViTs) for efficient spatio-temporal vegetation pixel classification. We conducted a comprehensive ablation study analyzing seven key design dimensions, including: (i) data normalization; (ii) spectral arrangement; (iii) boundary handling; (iv) spatial context window shape and size; (v) tokenization strategies; (vi) positional encoding; and (vii) feature aggregation strategies. Our method was evaluated on two datasets from the Brazilian Cerrado biome, Serra do Cipó (aerial imagery) and Itirapina (near-surface imagery). Experimental results demonstrate that our ViT approach offers a substantial improvement in computational efficiency while maintaining competitive classification performance. Notably, our ViT reduces Floating Point Operations (FLOPs) by an order of magnitude and maintains constant parameter complexity regardless of the time series length, whereas the CNN baseline scales linearly. Our findings confirm that ViTs are a robust, scalable solution for resource-constrained phenological monitoring systems.
- Abstract(参考訳): 植物現象学 - 生態系のダイナミクスと気候変動の影響に対する反応を理解するために、反復的なライフサイクルイベントの研究が不可欠である。
Unmanned Aerial Vehicles (UAV) と準地上カメラは高解像度の監視を可能にするが、時間にわたって植物種を特定することは計算的に困難である。
最先端のアプローチ、特にCNN(Multi-Temporal Convolutional Networks)は、長い時系列でスケールが悪く、大きな空間コンテキストウィンドウを必要とする、厳密なマルチブランチアーキテクチャに依存している。
本稿では,視覚変換器(ViT)の効率的な時空間的植生画素分類のための最適化に関する研究について述べる。
以下を含む7つの重要な設計次元を分析した総合的アブレーション研究を行った。
i) データ正規化
(二)スペクトル配置
(三) 境界処理
(四)空間的コンテキストウィンドウの形状及び大きさ
五 トークン化戦略
(vi)位置符号化、及び
(vii)機能集約戦略。
ブラジルのCerrado Biome,Serra do Cipó (空中画像) とItirapina (地表画像) の2つのデータセットについて検討した。
実験結果から,我々のViTアプローチは,競争力のある分類性能を維持しつつ,計算効率を大幅に向上することを示した。
特に,我々の ViT はFloating Point Operations (FLOPs) を桁違いに削減し,時系列長に関係なく定数パラメータの複雑性を維持する一方,CNN のベースラインは線形にスケールする。
以上の結果から,ViTsは資源制約のある現象モニタリングシステムにおいて,堅牢でスケーラブルなソリューションであることが明らかとなった。
関連論文リスト
- ConvVitMamba: Efficient Multiscale Convolution, Transformer, and Mamba-Based Sequence modelling for Hyperspectral Image Classification [2.538209532048867]
ハイパスペクトル画像(HSI)分類は、高スペクトル次元、冗長性、ラベル付きデータによって依然として困難である。
ConvVitMambaと呼ばれる統合ハイブリッドフレームワークが、効率的なHSI分類のために提案されている。
このアーキテクチャは、3つのコンポーネントを統合する: 局所スペクトル、空間、関節パターンをキャプチャするマルチスケール畳み込み特徴抽出器、グローバルなコンテキスト関係をモデル化するビジョントランスフォーマーベースのトークン化とエンコーディングステージ、効率的なコンテンツ認識のための軽量なMambaインスパイアされたゲート配列混合モジュール。
論文 参考訳(メタデータ) (2026-04-20T21:26:51Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - Vision Transformers for End-to-End Quark-Gluon Jet Classification from Calorimeter Images [0.0]
Vision Transformer (ViT) アーキテクチャは、グローバルなコンテキスト情報のモデリングで有名である。
ViTベースのモデルは、F1スコア、ROC-AUC、精度で確立されたCNNベースラインを一貫して上回る。
この研究は、カロリー画像に基づくジェット分類にViTアーキテクチャを適用するための最初の体系的枠組みと堅牢な性能基準を確立する。
論文 参考訳(メタデータ) (2025-06-17T19:32:04Z) - Multivariate Long-term Time Series Forecasting with Fourier Neural Filter [42.60778405812048]
我々はFNFをバックボーンとして、DBDをアーキテクチャとして導入し、空間時間モデルのための優れた学習能力と最適な学習経路を提供する。
FNFは、局所時間領域とグローバル周波数領域の情報処理を単一のバックボーン内で統合し、空間的モデリングに自然に拡張することを示す。
論文 参考訳(メタデータ) (2025-06-10T18:40:20Z) - Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data [14.104497777255137]
本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
論文 参考訳(メタデータ) (2025-03-17T05:42:19Z) - Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。
本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文 参考訳(メタデータ) (2025-03-06T05:13:19Z) - Adaptive Clustering for Efficient Phenotype Segmentation of UAV Hyperspectral Data [1.6135226672466307]
無人航空機 (UAV) とハイパースペクトルイメージング (HSI) が組み合わさって、環境および農業用途の可能性を秘めている。
本稿では,リアルタイムツリー表現型セグメンテーションのためのオンラインハイパースペクトル簡易線形反復クラスタリングアルゴリズム(OHSLIC)を提案する。
論文 参考訳(メタデータ) (2025-01-17T13:48:04Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Context-Conditioned Spatio-Temporal Predictive Learning for Reliable V2V Channel Prediction [25.688521281119037]
下流タスクの最適化には,V2Vチャネル状態情報(CSI)予測が不可欠である。
従来の予測手法は、時間、帯域幅、アンテナ(TX、RX)空間の予測を含む4次元(4D)CSIに重点を置いている。
本研究では,4次元CSIデータ内の依存関係をキャプチャするコンテキスト条件付き時間予測学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T04:15:36Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。