論文の概要: PIPE: Physics-Informed Position Encoding for Alignment of Satellite Images and Time Series
- arxiv url: http://arxiv.org/abs/2506.14786v1
- Date: Tue, 27 May 2025 04:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.672801
- Title: PIPE: Physics-Informed Position Encoding for Alignment of Satellite Images and Time Series
- Title(参考訳): PIPE: 衛星画像と時系列のアライメントのための物理情報を用いた位置符号化
- Authors: Haobo Li, Eunseo Jung, Zixin Chen, Zhaowei Wang, Yueya Wang, Huamin Qu, Alexis Kai Hon Lau,
- Abstract要約: 本稿では,物理情報を視覚言語モデル(VLM)に埋め込む軽量な物理情報符号化手法PIPEを提案する。
物理情報と注文情報の両方を保存することにより、PIPEはマルチモーダルアライメントと予測精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 24.599436070135827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal time series forecasting is foundational in various fields, such as utilizing satellite imagery and numerical data for predicting typhoons in climate science. However, existing multimodal approaches primarily focus on utilizing text data to help time series forecasting, leaving the visual data in existing time series datasets untouched. Furthermore, it is challenging for models to effectively capture the physical information embedded in visual data, such as satellite imagery's temporal and geospatial context, which extends beyond images themselves. To address this gap, we propose physics-informed positional encoding (PIPE), a lightweight method that embeds physical information into vision language models (VLMs). PIPE introduces two key innovations: (1) a physics-informed positional indexing scheme for mapping physics to positional IDs, and (2) a variant-frequency positional encoding mechanism for encoding frequency information of physical variables and sequential order of tokens within the embedding space. By preserving both the physical information and sequential order information, PIPE significantly improves multimodal alignment and forecasting accuracy. Through the experiments on the most representative and the largest open-sourced satellite image dataset, PIPE achieves state-of-the-art performance in both deep learning forecasting and climate domain methods, demonstrating superiority across benchmarks, including a 12% improvement in typhoon intensity forecasting over prior works. Our code is provided in the supplementary material.
- Abstract(参考訳): 気象学における台風予報のための衛星画像や数値データの利用など,様々な分野でマルチモーダル時系列予測が基礎となっている。
しかし、既存のマルチモーダルなアプローチは、主にテキストデータを活用して時系列予測を支援し、既存の時系列データセットに視覚的データを残す。
さらに、衛星画像の時間的・地理空間的文脈など、視覚データに埋め込まれた物理的情報を効果的に捉えることは、モデルにとって困難である。
そこで本研究では,物理情報を視覚言語モデル(VLM)に埋め込む軽量な手法PIPEを提案する。
2)物理変数の周波数情報を符号化する可変周波数位置符号化機構と,埋め込み空間内のトークンの逐次順序を示す。
物理情報と順序情報の両方を保存することにより、PIPEはマルチモーダルアライメントと予測精度を大幅に改善する。
PIPEは、最も代表的で最大のオープンソースの衛星画像データセットの実験を通じて、ディープラーニング予測と気候ドメイン手法の両方において最先端のパフォーマンスを達成し、事前の作業よりも台風強度予測を12%改善するなど、ベンチマーク間の優位性を実証した。
私たちのコードは補足材料で提供されます。
関連論文リスト
- EVLoc: Event-based Visual Localization in LiDAR Maps via Event-Depth Registration [13.066369438849872]
イベントカメラはバイオインスパイアされたセンサーで、ハイダイナミックレンジや低レイテンシなどいくつかの特長がある。
既存のLiDARマップ内でのローカライズの可能性を探る。
構造的明瞭度を改善する新しいフレームベースのイベント表現を開発する。
論文 参考訳(メタデータ) (2025-02-28T20:27:49Z) - Descriptor: Face Detection Dataset for Programmable Threshold-Based Sparse-Vision [0.8271394038014485]
このデータセットは、Aff-Wild2で使用されるのと同じビデオから派生した顔検出タスクのための注釈付き、時間閾値ベースの視覚データセットである。
我々は,このリソースが時間差閾値に基づいて処理できるスマートセンサに基づく堅牢な視覚システムの開発を支援することを期待する。
論文 参考訳(メタデータ) (2024-10-01T03:42:03Z) - Generalizing Weather Forecast to Fine-grained Temporal Scales via Physics-AI Hybrid Modeling [55.13352174687475]
本稿では,天気予報をトレーニングデータセットを超える微細な時間スケールに一般化する物理AIハイブリッドモデル(WeatherGFT)を提案する。
具体的には、小さな時間スケールで物理進化をシミュレートするために、慎重に設計されたPDEカーネルを用いる。
また、異なるリードタイムでのモデルの一般化を促進するためのリードタイムアウェアトレーニングフレームワークも導入する。
論文 参考訳(メタデータ) (2024-05-22T16:21:02Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Revisiting the Encoding of Satellite Image Time Series [2.5874041837241304]
画像時系列(SITS)時間学習は、高時間分解能と不規則な取得時間のために複雑である。
我々は、クエリベースのトランスフォーマーデコーダを採用する最近のトレンドに触発されて、直接セット予測問題としてSITS処理の新たな視点を開発する。
衛星PASTISベンチマークデータセットを用いて,SOTA(State-of-the-art)の新たな結果を得た。
論文 参考訳(メタデータ) (2023-05-03T12:44:20Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - PSEUDo: Interactive Pattern Search in Multivariate Time Series with
Locality-Sensitive Hashing and Relevance Feedback [3.347485580830609]
PSEUDoは、マルチトラックシーケンシャルデータにおける視覚パターンを探索するための適応的機能学習技術である。
提案アルゴリズムは,サブ線形学習と推論時間を特徴とする。
我々は,PSEUDoの効率,精度,操縦性において優位性を示す。
論文 参考訳(メタデータ) (2021-04-30T13:00:44Z) - Numerical Weather Forecasting using Convolutional-LSTM with Attention
and Context Matcher Mechanisms [10.759556555869798]
本稿では,高解像度気象データを予測するための新しいディープラーニングアーキテクチャを提案する。
我々の気象モデルは,ベースラインの深層学習モデルと比較して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-02-01T08:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。