論文の概要: Comparative analysis of dual-form networks for live land monitoring using multi-modal satellite image time series
- arxiv url: http://arxiv.org/abs/2603.24109v1
- Date: Wed, 25 Mar 2026 09:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.221561
- Title: Comparative analysis of dual-form networks for live land monitoring using multi-modal satellite image time series
- Title(参考訳): マルチモーダル衛星画像時系列を用いた実地モニタリングのためのデュアルフォームネットワークの比較解析
- Authors: Iris Dumeur, Jérémy Anger, Gabriele Facciolo,
- Abstract要約: 本稿では,効率的なマルチモーダルSITS解析のための多モードアテンション機構について検討する。
本研究では,シーケンスの指標ではなく,実際の取得日に基づくトークン距離を計算する2形式機構の時間的適応を開発する。
- 参考スコア(独自算出の注目度): 13.871139108427357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Satellite Image Time Series (SITS) analysis faces significant computational challenges for live land monitoring applications. While Transformer architectures excel at capturing temporal dependencies and fusing multi-modal data, their quadratic computational complexity and the need to reprocess entire sequences for each new acquisition limit their deployment for regular, large-area monitoring. This paper studies various dual-form attention mechanisms for efficient multi-modal SITS analysis, that enable parallel training while supporting recurrent inference for incremental processing. We compare linear attention and retention mechanisms within a multi-modal spectro-temporal encoder. To address SITS-specific challenges of temporal irregularity and unalignment, we develop temporal adaptations of dual-form mechanisms that compute token distances based on actual acquisition dates rather than sequence indices. Our approach is evaluated on two tasks using Sentinel-1 and Sentinel-2 data: multi-modal SITS forecasting as a proxy task, and real-world solar panel construction monitoring. Experimental results demonstrate that dual-form mechanisms achieve performance comparable to standard Transformers while enabling efficient recurrent inference. The multimodal framework consistently outperforms mono-modal approaches across both tasks, demonstrating the effectiveness of dual mechanisms for sensor fusion. The results presented in this work open new opportunities for operational land monitoring systems requiring regular updates over large geographic areas.
- Abstract(参考訳): マルチモーダル衛星画像時系列(SITS)解析は、ライブランドモニタリングアプリケーションにおいて重要な計算課題に直面している。
Transformerアーキテクチャは、時間的依存関係の取得とマルチモーダルデータの融合に優れていますが、その2次計算の複雑さと、新たな取得毎にシーケンス全体を再処理する必要があるため、通常の大規模監視のためのデプロイメントが制限されます。
本稿では,逐次処理の繰り返し推論をサポートしながら並列学習を可能にする,効率的なマルチモーダルSITS解析のための多モードアテンション機構について検討する。
マルチモーダル分光時間エンコーダにおける線形アテンションと保持機構を比較した。
SITS固有の時間的不規則性および不整合性の問題に対処するため、シーケンスインデックスではなく実際の取得日に基づいてトークン距離を計算する二重形式機構の時間的適応を開発する。
提案手法は,Sentinel-1とSentinel-2のデータを用いた2つのタスク,マルチモーダルSITS予測をプロキシタスクとして,および実世界のソーラーパネル構築監視を用いて評価した。
実験結果から, 2次形式機構は, 効率の良い再帰推論を実現するとともに, 標準トランスフォーマーに匹敵する性能を実現することが示された。
マルチモーダルフレームワークは、両タスクのモノモーダルアプローチを一貫して上回り、センサー融合のための二重メカニズムの有効性を実証している。
この研究の結果は、大規模な地域を定期的に更新する必要がある運用用土地監視システムに新たな機会を開放した。
関連論文リスト
- AlignMamba-2: Enhancing Multimodal Fusion and Sentiment Analysis with Modality-Aware Mamba [56.52470564147458]
マルチモーダル融合と感情分析のための効率的かつ効率的なフレームワークである textbfAlignMamba-2 を提案する。
提案手法では, 最適輸送距離と最大平均離散度の両方を用いてモデルを正規化する2つのアライメント戦略を導入する。
さらに重要なことは、モダリティに特有かつモダリティに偏ったエキスパートによるMixture-of-Expertsアーキテクチャを採用したModality-Aware Mamba層を設計することです。
論文 参考訳(メタデータ) (2026-03-19T03:47:21Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - DiTS: Multimodal Diffusion Transformers Are Time Series Forecasters [50.43534351968113]
既存の生成時系列モデルは、時系列データの多次元特性にうまく対応していない。
動画生成にテキストガイダンスを組み込んだマルチモーダル拡散変換器に着想を得て,Diffusion Transformer for Time Series (DiTS)を提案する。
論文 参考訳(メタデータ) (2026-02-06T10:48:13Z) - UniDiff: A Unified Diffusion Framework for Multimodal Time Series Forecasting [90.47915032778366]
マルチモーダル時系列予測のための統合拡散フレームワークUniDiffを提案する。
コアには統一的で並列な融合モジュールがあり、単一のクロスアテンション機構がタイムスタンプからの構造化情報とテキストからのセマンティックコンテキストを統合する。
8つの領域にわたる実世界のベンチマークデータセットの実験は、提案したUniDiffモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-08T05:36:14Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - TransNAS-TSAD: Harnessing Transformers for Multi-Objective Neural
Architecture Search in Time Series Anomaly Detection [3.5681028373124066]
本稿では,トランスナS-TSADについて紹介する。トランスナS-TSADは,トランスフォーマーアーキテクチャとニューラルアーキテクチャサーチ(NAS)を相乗化するフレームワークである。
評価の結果,TransNAS-TSADはアーキテクチャ適応性の改善により従来の異常検出モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2023-11-29T20:13:32Z) - Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。
提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。
単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文 参考訳(メタデータ) (2023-10-03T01:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。