論文の概要: PIPE: Physics-Informed Position Encoding for Alignment of Satellite Images and Time Series
- arxiv url: http://arxiv.org/abs/2506.14786v1
- Date: Tue, 27 May 2025 04:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.672801
- Title: PIPE: Physics-Informed Position Encoding for Alignment of Satellite Images and Time Series
- Title(参考訳): PIPE: 衛星画像と時系列のアライメントのための物理情報を用いた位置符号化
- Authors: Haobo Li, Eunseo Jung, Zixin Chen, Zhaowei Wang, Yueya Wang, Huamin Qu, Alexis Kai Hon Lau,
- Abstract要約: 本稿では,物理情報を視覚言語モデル(VLM)に埋め込む軽量な物理情報符号化手法PIPEを提案する。
物理情報と注文情報の両方を保存することにより、PIPEはマルチモーダルアライメントと予測精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 24.599436070135827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal time series forecasting is foundational in various fields, such as utilizing satellite imagery and numerical data for predicting typhoons in climate science. However, existing multimodal approaches primarily focus on utilizing text data to help time series forecasting, leaving the visual data in existing time series datasets untouched. Furthermore, it is challenging for models to effectively capture the physical information embedded in visual data, such as satellite imagery's temporal and geospatial context, which extends beyond images themselves. To address this gap, we propose physics-informed positional encoding (PIPE), a lightweight method that embeds physical information into vision language models (VLMs). PIPE introduces two key innovations: (1) a physics-informed positional indexing scheme for mapping physics to positional IDs, and (2) a variant-frequency positional encoding mechanism for encoding frequency information of physical variables and sequential order of tokens within the embedding space. By preserving both the physical information and sequential order information, PIPE significantly improves multimodal alignment and forecasting accuracy. Through the experiments on the most representative and the largest open-sourced satellite image dataset, PIPE achieves state-of-the-art performance in both deep learning forecasting and climate domain methods, demonstrating superiority across benchmarks, including a 12% improvement in typhoon intensity forecasting over prior works. Our code is provided in the supplementary material.
- Abstract(参考訳): 気象学における台風予報のための衛星画像や数値データの利用など,様々な分野でマルチモーダル時系列予測が基礎となっている。
しかし、既存のマルチモーダルなアプローチは、主にテキストデータを活用して時系列予測を支援し、既存の時系列データセットに視覚的データを残す。
さらに、衛星画像の時間的・地理空間的文脈など、視覚データに埋め込まれた物理的情報を効果的に捉えることは、モデルにとって困難である。
そこで本研究では,物理情報を視覚言語モデル(VLM)に埋め込む軽量な手法PIPEを提案する。
2)物理変数の周波数情報を符号化する可変周波数位置符号化機構と,埋め込み空間内のトークンの逐次順序を示す。
物理情報と順序情報の両方を保存することにより、PIPEはマルチモーダルアライメントと予測精度を大幅に改善する。
PIPEは、最も代表的で最大のオープンソースの衛星画像データセットの実験を通じて、ディープラーニング予測と気候ドメイン手法の両方において最先端のパフォーマンスを達成し、事前の作業よりも台風強度予測を12%改善するなど、ベンチマーク間の優位性を実証した。
私たちのコードは補足材料で提供されます。
関連論文リスト
- Descriptor: Face Detection Dataset for Programmable Threshold-Based Sparse-Vision [0.8271394038014485]
このデータセットは、Aff-Wild2で使用されるのと同じビデオから派生した顔検出タスクのための注釈付き、時間閾値ベースの視覚データセットである。
我々は,このリソースが時間差閾値に基づいて処理できるスマートセンサに基づく堅牢な視覚システムの開発を支援することを期待する。
論文 参考訳(メタデータ) (2024-10-01T03:42:03Z) - Generalizing Weather Forecast to Fine-grained Temporal Scales via Physics-AI Hybrid Modeling [55.13352174687475]
本稿では,天気予報をトレーニングデータセットを超える微細な時間スケールに一般化する物理AIハイブリッドモデル(WeatherGFT)を提案する。
具体的には、小さな時間スケールで物理進化をシミュレートするために、慎重に設計されたPDEカーネルを用いる。
また、異なるリードタイムでのモデルの一般化を促進するためのリードタイムアウェアトレーニングフレームワークも導入する。
論文 参考訳(メタデータ) (2024-05-22T16:21:02Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Numerical Weather Forecasting using Convolutional-LSTM with Attention
and Context Matcher Mechanisms [10.759556555869798]
本稿では,高解像度気象データを予測するための新しいディープラーニングアーキテクチャを提案する。
我々の気象モデルは,ベースラインの深層学習モデルと比較して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-02-01T08:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。