論文の概要: Temporal-Spatial Tubelet Embedding for Cloud-Robust MSI Reconstruction using MSI-SAR Fusion: A Multi-Head Self-Attention Video Vision Transformer Approach
- arxiv url: http://arxiv.org/abs/2512.09471v1
- Date: Wed, 10 Dec 2025 09:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.470138
- Title: Temporal-Spatial Tubelet Embedding for Cloud-Robust MSI Reconstruction using MSI-SAR Fusion: A Multi-Head Self-Attention Video Vision Transformer Approach
- Title(参考訳): MSI-SAR核融合を用いたクラウド・ロバスト型MSI再建のための時間空間チューブレット埋め込み-マルチヘッド・セルフアテンション・ビデオ・ビジョン・トランスフォーマアプローチ
- Authors: Yiqun Wang, Lujun Li, Meiru Yue, Radu State,
- Abstract要約: 本研究では,ビデオビジョントランス (ViViT) を用いた時間空間融合を組み込んだフレームワークを提案する。
2020年のトレイル郡データの実験では、顕著な性能改善が示されている。
- 参考スコア(独自算出の注目度): 14.505845397958637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloud cover in multispectral imagery (MSI) significantly hinders early-season crop mapping by corrupting spectral information. Existing Vision Transformer(ViT)-based time-series reconstruction methods, like SMTS-ViT, often employ coarse temporal embeddings that aggregate entire sequences, causing substantial information loss and reducing reconstruction accuracy. To address these limitations, a Video Vision Transformer (ViViT)-based framework with temporal-spatial fusion embedding for MSI reconstruction in cloud-covered regions is proposed in this study. Non-overlapping tubelets are extracted via 3D convolution with constrained temporal span $(t=2)$, ensuring local temporal coherence while reducing cross-day information degradation. Both MSI-only and SAR-MSI fusion scenarios are considered during the experiments. Comprehensive experiments on 2020 Traill County data demonstrate notable performance improvements: MTS-ViViT achieves a 2.23\% reduction in MSE compared to the MTS-ViT baseline, while SMTS-ViViT achieves a 10.33\% improvement with SAR integration over the SMTS-ViT baseline. The proposed framework effectively enhances spectral reconstruction quality for robust agricultural monitoring.
- Abstract(参考訳): マルチスペクトル画像(MSI)における雲の被覆は、スペクトル情報を破損させることにより、早期の作物のマッピングを著しく阻害する。
既存の視覚変換器(ViT)ベースの時系列再構成法(SMTS-ViT)では、シーケンス全体を集約する粗い時間的埋め込みをしばしば使用し、重大な情報損失と再構成精度の低下を引き起こす。
これらの制約に対処するため、雲に覆われた領域におけるMSI再構成のための時間空間融合を組み込んだビデオビジョントランス (ViViT) ベースのフレームワークを提案する。
重複しないチューブレットは3D畳み込みによって抽出され、時間的スパンが制約された$(t=2)$で、時間的コヒーレンスを確保しながら、日次情報の劣化を低減させる。
MSIのみおよびSAR-MSI融合シナリオは実験中に考慮される。
MTS-ViViT は MTS-ViT ベースラインと比較して MSE を 2.23 % 削減し、SMTS-ViViT は SAR を SMTS-ViT ベースライン上で10.33 % 改善した。
提案手法は、堅牢な農業モニタリングのためのスペクトル再構成品質を効果的に向上させる。
関連論文リスト
- Vision Transformer-Based Time-Series Image Reconstruction for Cloud-Filling Applications [12.99180601782579]
マルチスペクトル画像(MSI)における雲の被覆は、初期収穫のマッピングにおいて重要な課題となる。
雲に覆われた領域のMSIデータを再構成するために、視覚変換器(ViT)を用いた時系列MSI画像再構成という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-24T13:00:36Z) - Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction [62.69089767730514]
視覚に基づく3次元意味的占有予測(VisionOcc)のための時間融合法であるGAFusionを提案する。
これは、VisionOccフレームワーク内の時間融合の未調査の側面を開き、時間的手がかりと融合戦略の両方に焦点を当てる。
論文 参考訳(メタデータ) (2025-04-17T14:05:33Z) - ViSIR: Vision Transformer Single Image Reconstruction Method for Earth System Models [0.0]
地球系モデル (ESM) は、大気、海、陸、氷、生物圏の相互作用を統合し、地域気候と地球気候の状態を推定する。
本稿では、ESMデータの単一画像SR(SR)再構成タスクを改善するために、ViSIR(Vision Transformer Sinusoidal Representation Networks)を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:09:45Z) - Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, Spatial Purification, and Scale Diversification [6.341065683872316]
ViTは、画像の高周波成分を捉えるのに苦労し、局所的なテクスチャやエッジ情報を検出する能力を制限する。
コンテンツ中の関連トークンと非関連トークンのうち、MSA(Multi-head self-attention)を計算する。
ViTsのフィードフォワードネットワークは、画像復元に重要なマルチスケール情報をモデル化することができない。
論文 参考訳(メタデータ) (2024-12-14T10:03:08Z) - Multi-scale Restoration of Missing Data in Optical Time-series Images with Masked Spatial-Temporal Attention Network [0.6675733925327885]
リモートセンシング画像に欠落した値を出力する既存の方法は、補助情報を完全に活用できない。
本稿では,時系列リモートセンシング画像の再構成のためのMS2という,深層学習に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T09:05:05Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - SST: Real-time End-to-end Monocular 3D Reconstruction via Sparse
Spatial-Temporal Guidance [71.3027345302485]
リアルタイムモノクル3D再構成は未解決の課題である。
視覚SLAMシステムからのスパース推定点を利用したエンドツーエンドの3D再構成ネットワークSSTを提案する。
SSTは、59FPSで高い推論速度を維持しながら、最先端の競合他社よりも優れています。
論文 参考訳(メタデータ) (2022-12-13T12:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。