論文の概要: VisionTS++: Cross-Modal Time Series Foundation Model with Continual Pre-trained Vision Backbones
- arxiv url: http://arxiv.org/abs/2508.04379v3
- Date: Fri, 10 Oct 2025 03:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.988034
- Title: VisionTS++: Cross-Modal Time Series Foundation Model with Continual Pre-trained Vision Backbones
- Title(参考訳): VisionTS++: 継続トレーニングされたビジョンバックボーンを備えたクロスモーダル時系列ファンデーションモデル
- Authors: Lefei Shen, Mouxiang Chen, Xu Liu, Han Fu, Xiaoxue Ren, Jianling Sun, Zhuo Li, Chenghao Liu,
- Abstract要約: VisonTS++は、大規模時系列上でのビジョンモデルの継続的な事前トレーニングに基づくTSFMである。
提案手法は,視覚モデルに基づくフィルタリング,色付き多変量変換,マルチクアンタイル予測という3つの重要なイノベーションを導入している。
実験により、VisionTS++は分布内および分布外予測の両方で最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 35.2847156993469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have indicated that vision models pre-trained on images can serve as time series foundation models (TSFMs) by reformulating time series forecasting (TSF) as image reconstruction. However, effective cross-modal transfer from vision to time series remains challenging due to three discrepancies: (1) the data-modality gap between structured, bounded image data and unbounded, heterogeneous time series; (2) the multivariate-forecasting gap between fixed RGB-three-channel vision models and time series with arbitrary numbers of variates; and (3) the probabilistic-forecasting gap between the deterministic outputs of vision models and the requirement for uncertainty-aware probabilistic predictions. To bridge these gaps, we propose VisonTS++, a TSFM based on continual pre-training of a vision model on large-scale time series. Our approach introduces three key innovations: (1) vision-model-based filtering to identify high-quality sequences to stabilize pre-training and mitigate modality gap; (2) colorized multivariate conversion, encoding multivariate series as multi-subfigure RGB images to enhance cross-variate modeling; (3) multi-quantile forecasting, using parallel reconstruction heads to generate quantile forecasts without parametric assumptions. Experiments show that VisionTS++ achieves state-of-the-art performance in both in-distribution and out-of-distribution forecasting, outperforming specialized TSFMs by 6%-44% in MSE reduction and ranking first in GIFT-Eval benchmark which comprises 23 datasets across 7 domains. Our work demonstrates that with appropriate adaptation, vision models can effectively generalize to TSF, thus advancing the pursuit of universal TSFMs. Code is available at https://github.com/HALF111/VisionTSpp.
- Abstract(参考訳): 近年の研究では、画像上で事前訓練された視覚モデルは、時系列予測(TSF)を画像再構成として再構成することにより、時系列基礎モデル(TSFM)として機能することが示されている。
しかし,(1)構造化,有界画像データと非有界・異種時系列との間のデータモダリティギャップ,(2)固定RGB-3チャネルビジョンモデルと任意の数の変数を持つ時系列間の多変量予測ギャップ,(3)視覚モデルの決定論的出力と不確実性を考慮した確率的予測ギャップ,の3つの相違により,視覚から時系列への効果的なクロスモーダル転送は依然として困難である。
これらのギャップを埋めるため,大規模な時系列上での視覚モデルの連続事前学習に基づくTSFMであるVisonTS++を提案する。
提案手法は,(1)事前学習と緩和モダリティギャップを安定化するために高品質なシーケンスを識別する視覚モデルに基づくフィルタリング,(2)多変量系列を多変量RGB画像として符号化した多変量変換,(3)並列再構成ヘッドを用いてパラメトリックな仮定のない量子予測を生成する多変量予測,の3つの重要なイノベーションを紹介する。
実験によると、VisionTS++は、分布内および分布外予測の両方で最先端のパフォーマンスを達成し、7つのドメインに23のデータセットからなるGIFT-Evalベンチマークで、MSEの削減とランキングで、特殊TSFMを6%-44%上回った。
我々の研究は、適切な適応によって視覚モデルがTSFに効果的に一般化できることを示し、普遍TSFMの追求を進めた。
コードはhttps://github.com/HALF111/VisionTSpp.comから入手できる。
関連論文リスト
- TimeOmni-VL: Unified Models for Time Series Understanding and Generation [66.55423802406078]
Time Omni-VLは、時系列の理解と生成を統合するビジョン中心のフレームワークである。
Time Omni-VLは、高忠実度生成のための明示的な制御信号として時系列理解を利用する最初の方法である。
実験により、この統一されたアプローチは意味的理解と数値的精度の両方を著しく改善することを確認した。
論文 参考訳(メタデータ) (2026-02-19T07:50:11Z) - DiTS: Multimodal Diffusion Transformers Are Time Series Forecasters [50.43534351968113]
既存の生成時系列モデルは、時系列データの多次元特性にうまく対応していない。
動画生成にテキストガイダンスを組み込んだマルチモーダル拡散変換器に着想を得て,Diffusion Transformer for Time Series (DiTS)を提案する。
論文 参考訳(メタデータ) (2026-02-06T10:48:13Z) - VIFO: Visual Feature Empowered Multivariate Time Series Forecasting with Cross-Modal Fusion [30.95449991386488]
時系列モデルのための時空間予測モデルVIFOを提案する。
多変量時系列をイメージ化し、事前訓練されたLVMで複雑なチャネル間のパターンを抽出する。
複数のベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-25T14:02:26Z) - T3Time: Tri-Modal Time Series Forecasting via Adaptive Multi-Head Alignment and Residual Fusion [0.4915744683251151]
T3Timeは、時間、スペクトル、プロンプトブランチで構成される新しい3モーダルフレームワークである。
予測地平線に基づいて時間的特徴とスペクトル的特徴の優先順位付けを学習する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-06T09:31:44Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Multi-Modal View Enhanced Large Vision Models for Long-Term Time Series Forecasting [53.332533610841885]
時系列は画像やテキストに変換でき、同じ信号のマルチモーダルビュー(MMV)を提供する。
これらのMMVは相補的なパターンを明らかにし、長期時系列予測(LTSF)のための大型ビジョンモデル(LVM)のような強力な事前訓練された大規模モデルの使用を可能にする。
DMMVは、トレンド・シーズンの分解と新しいバックキャスト・レジデンシャル・アダプティブ・コンダプティブ・コンダプションを活用し、LTSFのためのMMVを統合する新しい分解ベースマルチモーダル・ビュー・フレームワークである。
論文 参考訳(メタデータ) (2025-05-29T20:55:24Z) - Vision-Enhanced Time Series Forecasting via Latent Diffusion Models [12.54316645614762]
LDM4TSは視覚強調時系列予測のための遅延拡散モデルの強力な画像再構成機能を利用する新しいフレームワークである。
時系列を多視点視覚表現に変換するための補完的変換手法を最初に用いた。
論文 参考訳(メタデータ) (2025-02-16T14:15:06Z) - General Time-series Model for Universal Knowledge Representation of Multivariate Time-Series data [61.163542597764796]
周波数領域で異なる時間粒度(または対応する周波数分解能)の時系列が異なる結合分布を示すことを示す。
時間領域と周波数領域の両方からタイムアウェア表現を学習するために,新しいFourierナレッジアテンション機構を提案する。
自己回帰的空白埋め込み事前学習フレームワークを時系列解析に初めて組み込み、生成タスクに依存しない事前学習戦略を実現する。
論文 参考訳(メタデータ) (2025-02-05T15:20:04Z) - UTSD: Unified Time Series Diffusion Model [13.555837288440946]
多領域確率分布をモデル化するために、初めて統一時系列拡散モデルを確立する。
我々は、主要なベンチマークで広範な実験を行い、事前訓練されたUTSDは、すべてのデータドメインにおける既存の基礎モデルより優れています。
論文 参考訳(メタデータ) (2024-12-04T06:42:55Z) - DisenTS: Disentangled Channel Evolving Pattern Modeling for Multivariate Time Series Forecasting [43.071713191702486]
DisenTSは、一般的な時系列予測において、不整合チャネル進化パターンをモデル化するための調整されたフレームワークである。
本稿では,予測器の状態と入力系列の特性の両方に応じて適応的にルーティング信号を生成する,新しいフォアキャスタ・アウェアゲート(FAG)モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-30T12:46:14Z) - DAM: Towards A Foundation Model for Time Series Forecasting [0.8231118867997028]
本稿では,ランダムにサンプリングされた履歴を抽出し,時間連続関数として調整可能な基底組成を出力するニューラルモデルを提案する。
1)長い尾の分布からランダムにサンプリングされたヒストリーを使用する柔軟なアプローチ、(2)これらの活発にサンプリングされたヒストリーに基づいてトレーニングされたトランスフォーマーバックボーンを表現的出力として、(3)時間の連続関数の基底係数を含む。
論文 参考訳(メタデータ) (2024-07-25T08:48:07Z) - MGCP: A Multi-Grained Correlation based Prediction Network for Multivariate Time Series [54.91026286579748]
本稿では,マルチグラインド相関に基づく予測ネットワークを提案する。
予測性能を高めるために3段階の相関を同時に検討する。
注意機構に基づく予測器と条件判別器を用いて、粗い粒度の予測結果を最適化する。
論文 参考訳(メタデータ) (2024-05-30T03:32:44Z) - Towards a General Time Series Forecasting Model with Unified Representation and Adaptive Transfer [24.03830611693476]
既存の時系列基礎モデルは、主に一般化性能を高めるために、トレーニング済みデータセットとモデルサイズをスケールアップすることに焦点を当てている。
我々は、ヘテロジニアスなマルチドメイン時系列データから統一表現を導出する方法と、ドメイン固有の特徴を効果的に捉えて、様々な下流シナリオ間で適応的な転送を可能にする方法という、一般的な予測モデルの2つの重要な側面に対処することで、異なるアプローチをとる。
本モデルでは、7つの実世界のベンチマークで最先端の予測性能を達成し、目覚ましい少数ショットとゼロショットの能力を実証する。
論文 参考訳(メタデータ) (2024-05-24T06:01:09Z) - Unified Training of Universal Time Series Forecasting Transformers [104.56318980466742]
マスク型ユニバーサル時系列予測変換器(モイライ)について述べる。
Moiraiは、新たに導入された大規模オープンタイムシリーズアーカイブ(LOTSA)で訓練されており、9つのドメインで27億以上の観測が行われた。
Moiraiは、フルショットモデルと比較してゼロショットの予測器として、競争力や優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-04T20:00:45Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - Temporal Saliency Detection Towards Explainable Transformer-based
Timeseries Forecasting [3.046315755726937]
本稿では、注意機構を基盤として、マルチ水平時系列予測に適用する効果的なアプローチであるTSD(Temporal Saliency Detection)を提案する。
TSD手法は, 多重ヘッドを凝縮することにより, 多分解能パターンの多分解能解析を容易にし, 複雑な時系列データの予測を段階的に向上させる。
論文 参考訳(メタデータ) (2022-12-15T12:47:59Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - Stacking VAE with Graph Neural Networks for Effective and Interpretable
Time Series Anomaly Detection [5.935707085640394]
本研究では,実効かつ解釈可能な時系列異常検出のための,グラフニューラルネットワークを用いた自動エンコーダ(VAE)モデルを提案する。
我々は,提案モデルが3つの公開データセットの強いベースラインを上回っており,大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-05-18T09:50:00Z) - Improving the Accuracy of Global Forecasting Models using Time Series
Data Augmentation [7.38079566297881]
GFM(Global Forecasting Models)として知られる多くの時系列のセットでトレーニングされた予測モデルは、競争や実世界のアプリケーションを予測する上で有望な結果を示している。
本稿では,GFMモデルのベースライン精度を向上させるための,データ拡張に基づく新しい予測フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-06T13:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。