論文の概要: Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting
- arxiv url: http://arxiv.org/abs/2507.11558v1
- Date: Mon, 14 Jul 2025 08:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.063574
- Title: Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting
- Title(参考訳): 時空間予測のためのビジョンファウンデーションモデルの再プログラミング
- Authors: Changlu Chen, Yanbin Liu, Chaoxi Niu, Ling Chen, Tianqing Zhu,
- Abstract要約: 汎用ロバストネス・時間予測のためのビジョン・ファンデーション・モデル(VFM)を体系的に再プログラミングするフレームワークであるtextST-VFMを提案する。
このフレームワークは、生の入力と補助的なSTフローを統合し、フローは動的キューとして解釈可能な軽量の時間差信号を符号化する。
Emphpre-VFMリプログラミングでは、Temporal-Aware Tokenを使用して、両方のブランチをVFM互換の機能空間に整列させる。
emphpost-VFMリプログラミングでは、分岐間の動的相互作用を可能にするバイラテラルクロスプロンプトコーディネートモジュールが導入されている。
- 参考スコア(独自算出の注目度): 12.591771385493509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have achieved remarkable success in natural language processing and computer vision, demonstrating strong capabilities in modeling complex patterns. While recent efforts have explored adapting large language models (LLMs) for time-series forecasting, LLMs primarily capture one-dimensional sequential dependencies and struggle to model the richer spatio-temporal (ST) correlations essential for accurate ST forecasting. In this paper, we present \textbf{ST-VFM}, a novel framework that systematically reprograms Vision Foundation Models (VFMs) for general-purpose spatio-temporal forecasting. While VFMs offer powerful spatial priors, two key challenges arise when applying them to ST tasks: (1) the lack of inherent temporal modeling capacity and (2) the modality gap between visual and ST data. To address these, ST-VFM adopts a \emph{dual-branch architecture} that integrates raw ST inputs with auxiliary ST flow inputs, where the flow encodes lightweight temporal difference signals interpretable as dynamic spatial cues. To effectively process these dual-branch inputs, ST-VFM introduces two dedicated reprogramming stages. The \emph{pre-VFM reprogramming} stage applies a Temporal-Aware Token Adapter to embed temporal context and align both branches into VFM-compatible feature spaces. The \emph{post-VFM reprogramming} stage introduces a Bilateral Cross-Prompt Coordination module, enabling dynamic interaction between branches through prompt-based conditioning, thus enriching joint representation learning without modifying the frozen VFM backbone. Extensive experiments on ten spatio-temporal datasets show that ST-VFM outperforms state-of-the-art baselines, demonstrating effectiveness and robustness across VFM backbones (e.g., DINO, CLIP, DEIT) and ablation studies, establishing it as a strong general framework for spatio-temporal forecasting.
- Abstract(参考訳): ファンデーションモデルは自然言語処理とコンピュータビジョンにおいて顕著に成功し、複雑なパターンをモデリングする強力な能力を示している。
近年,大規模言語モデル(LLM)を時系列予測に適用する試みが試みられているが,LLMは主に1次元の逐次的依存を捉え,ST予測に不可欠なより豊かな時空間(ST)相関のモデル化に苦慮している。
本稿では、汎用時空間予測のためのビジョン基礎モデル(VFM)を体系的に再プログラミングする新しいフレームワークである「textbf{ST-VFM}」を提案する。
VFMは強力な空間的先行性を提供するが、STタスクに適用する際には、(1)時間的モデリング能力の欠如と(2)視覚とSTデータ間のモダリティギャップの2つの大きな課題が発生する。
これらの問題に対処するため、ST-VFMは生のST入力と補助的なSTフロー入力を統合する「emph{dual-branch architecture」を採用し、フローは動的空間的キューとして解釈可能な軽量時間差信号を符号化する。
これらのデュアルブランチ入力を効果的に処理するために、ST-VFMは2つの専用のプログラミング段階を導入する。
emph{pre-VFM regramming} ステージでは、時間的コンテキストを埋め込んで、両方のブランチを VFM互換の機能空間にアライメントするために、Temporal-Aware Token Adapter が適用される。
emph{post-VFM regramming} ステージではバイラテラルクロスプロンプトコーディネートモジュールが導入され、プロンプトベースの条件付けを通じて分岐間の動的相互作用を可能にし、凍結したVFMバックボーンを変更することなく共同表現学習が強化される。
10の時空間データセットに対する大規模な実験により、ST-VFMは最先端のベースラインより優れ、VFMバックボーン(例えば、DINO、CLIP、DEIT)とアブレーション研究における有効性と堅牢性を示し、時空間予測のための強力な一般的な枠組みとして確立された。
関連論文リスト
- Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Multi-Scale Finetuning for Encoder-based Time Series Foundation Models [56.503053716053]
時系列基礎モデル (TSFM) は, 時系列予測において印象的なゼロショット性能を示す。
我々は、TSFMの能力を十分に活用するに足りず、しばしば過度な適合と準最適性能をもたらすと論じている。
マルチスケールモデリングをファインタニングプロセスに明示的に統合するシンプルなフレームワークであるtextbftextscfinetextbftextsctuning (textbfMSFT)を提案する。
論文 参考訳(メタデータ) (2025-06-17T01:06:01Z) - Multivariate Long-term Time Series Forecasting with Fourier Neural Filter [55.09326865401653]
我々はFNFをバックボーンとして、DBDをアーキテクチャとして導入し、空間時間モデルのための優れた学習能力と最適な学習経路を提供する。
FNFは、局所時間領域とグローバル周波数領域の情報処理を単一のバックボーン内で統合し、空間的モデリングに自然に拡張することを示す。
論文 参考訳(メタデータ) (2025-06-10T18:40:20Z) - Enhancing LLMs for Time Series Forecasting via Structure-Guided Cross-Modal Alignment [12.319685395140862]
本稿では,時系列データと言語データで共有される状態遷移グラフ構造を逐次モーダルとして活用・整合するフレームワークを提案する。
複数のベンチマークの実験は、SGCMAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-19T14:30:41Z) - LLM4FTS: Enhancing Large Language Models for Financial Time Series Prediction [0.0]
従来の機械学習モデルは、制限されたモデル容量に制約された予測タスクに制限を示す。
我々は、学習可能なパッチセグメンテーションと動的ウェーブレット畳み込みモジュールによる時間的シーケンスモデリングを強化する新しいフレームワークLLM4FTS$を提案する。
実世界の金融データセットの実験は、このフレームワークの有効性を実証し、複雑な市場パターンを捉える上で優れたパフォーマンスを示し、ストックリターン予測の最先端結果を達成する。
論文 参考訳(メタデータ) (2025-05-05T06:48:34Z) - Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation [23.702783589405236]
Vision Foundation Models(VFM)とVision-Language Models(VLM)はドメイン一般化セマンティック(DGSS)で注目を集めている。
本稿では, VFM と VLM の強度を効率よく組み合わせた, マンバをベースとした新しい融合フレームワーク MFuser を提案する。
提案手法は,高い計算オーバーヘッドを伴わずに,高精度な特徴局所性と強いテキストアライメントを実現する。
論文 参考訳(メタデータ) (2025-04-04T05:44:45Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - RePST: Language Model Empowered Spatio-Temporal Forecasting via Semantic-Oriented Reprogramming [24.9561009415531]
我々は,事前学習言語モデル(PLM)の推論と一般化能力を活用して,複雑な時間的予測を実現することを目的とする。
本稿では,時間的予測に適した意味指向型 PLM プログラミングフレームワーク RePST を提案する。
論文 参考訳(メタデータ) (2024-08-24T07:59:36Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Multi-Modality Spatio-Temporal Forecasting via Self-Supervised Learning [11.19088022423885]
そこで本稿では,MoSSL を利用した新しい学習フレームワークを提案する。
2つの実世界のMOSTデータセットの結果は、最先端のベースラインと比較して、我々のアプローチの優位性を検証する。
論文 参考訳(メタデータ) (2024-05-06T08:24:06Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Revealing the Power of Masked Autoencoders in Traffic Forecasting [16.69508205120188]
本稿では,交通予測における既存の時空間モデルを強化するためのプラグイン・アンド・プレイ・フレームワークを提案する。
STMAEは2つの学習段階から構成されており、事前学習段階では、エンコーダが2つのマスキング戦略によって生成された部分的に可視なトラフィックデータを処理している。
2つのデコーダは,空間的,時間的両面からマスクを復元することを目的としている。
トラフィックベンチマークの結果から,STMAEは様々な時空間モデルの予測能力を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-09-26T18:05:19Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-01-17T01:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。