論文の概要: Teaching Time Series to See and Speak: Forecasting with Aligned Visual and Textual Perspectives
- arxiv url: http://arxiv.org/abs/2506.24124v2
- Date: Tue, 01 Jul 2025 03:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 11:48:10.264791
- Title: Teaching Time Series to See and Speak: Forecasting with Aligned Visual and Textual Perspectives
- Title(参考訳): 時系列で見る・話す:視覚的・テクスチュアルな視点で予測する
- Authors: Sixun Dong, Wei Fan, Teresa Wu, Yanjie Fu,
- Abstract要約: 時系列の予測は伝統的に単調な数値入力に依存している。
生の時系列を構造化された視覚的・テキスト的視点に変換するマルチモーダルコントラスト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.10401153489018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series forecasting traditionally relies on unimodal numerical inputs, which often struggle to capture high-level semantic patterns due to their dense and unstructured nature. While recent approaches have explored representing time series as text using large language models (LLMs), these methods remain limited by the discrete nature of token sequences and lack the perceptual intuition humans typically apply, such as interpreting visual patterns. In this paper, we propose a multimodal contrastive learning framework that transforms raw time series into structured visual and textual perspectives. Rather than using natural language or real-world images, we construct both modalities directly from numerical sequences. We then align these views in a shared semantic space via contrastive learning, enabling the model to capture richer and more complementary representations. Furthermore, we introduce a variate selection module that leverages the aligned representations to identify the most informative variables for multivariate forecasting. Extensive experiments on fifteen short-term and six long-term forecasting benchmarks demonstrate that our approach consistently outperforms strong unimodal and cross-modal baselines, highlighting the effectiveness of multimodal alignment in enhancing time series forecasting. Code is available at: https://github.com/Ironieser/TimesCLIP.
- Abstract(参考訳): 時系列の予測は伝統的に単調な数値入力に依存しており、その密度と非構造性のために高レベルのセマンティックなパターンを捉えるのに苦労することが多い。
近年,大規模言語モデル (LLM) を用いて時系列をテキストとして表現する手法が検討されているが,これらの手法はトークン配列の離散性によって制限されており,視覚的パターンの解釈などの知覚的直観が典型的ではない。
本稿では,生の時系列を構造化された視覚的・テキスト的視点に変換するマルチモーダルコントラスト学習フレームワークを提案する。
自然言語や実世界の画像を使うのではなく、数値列から直接モダリティを構築する。
次に、これらのビューをコントラスト学習を通じて共有セマンティック空間に整列させ、モデルがよりリッチで相補的な表現をキャプチャできるようにする。
さらに,多変量予測において最も有意な変数を識別するために,整列表現を利用した変分選択モジュールを導入する。
15の短期および6つの長期予測ベンチマークに対する広範囲な実験により、我々のアプローチは強い単調とクロスモーダルのベースラインを一貫して上回り、時系列予測の強化におけるマルチモーダルアライメントの有効性を強調した。
コードは、https://github.com/Ironieser/TimesCLIP.comで入手できる。
関連論文リスト
- Does Multimodality Lead to Better Time Series Forecasting? [84.74978289870155]
このようなマルチモーダル積分がどのような条件で常に得られるかは、まだ不明である。
本稿では,時系列とテキスト表現をアライメントするアライメント・ベース・メソッドと,予測のための大規模言語モデルを直接促進するプロンプト・ベース・メソッドの2つの一般的なマルチモーダル予測パラダイムを評価する。
その結果,1)高容量テキストモデル,(2)比較的弱い時系列モデル,(3)適切な整合戦略などにより,テキスト情報を組み込むことが最も有用であることが示唆された。
論文 参考訳(メタデータ) (2025-06-20T23:55:56Z) - Enhancing Time Series Forecasting via Multi-Level Text Alignment with LLMs [6.612196783595362]
大規模言語モデル(LLM)を用いた時系列予測のための多段階テキストアライメントフレームワークを提案する。
本手法は,時系列をトレンド,季節,残留成分に分解し,コンポーネント固有のテキスト表現に再プログラムする。
複数のデータセットに対する実験により,提案手法は高い解釈性を提供しながら,最先端のモデルよりも精度が高いことを示した。
論文 参考訳(メタデータ) (2025-04-10T01:02:37Z) - TimesBERT: A BERT-Style Foundation Model for Time Series Understanding [72.64824086839631]
GPTスタイルのモデルは時系列予測の基礎モデルとして位置づけられている。
BERTスタイルのアーキテクチャは時系列理解のために完全にアンロックされていない。
時系列の汎用表現を学ぶために TimesBERT を設計する。
私たちのモデルは、さまざまなドメインにまたがる2600億のタイムポイントで事前トレーニングされています。
論文 参考訳(メタデータ) (2025-02-28T17:14:44Z) - Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative [65.84249211767921]
テキスト・アズ・タイム・シリーズ(TaTS)は、既存の数値のみの時系列モデルにプラグインできる。
TaTSはモデルアーキテクチャを変更することなく予測性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-02-13T03:43:27Z) - Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting [26.4608782425897]
Time-VLMは、時間的、視覚的、テキスト的なモダリティを橋渡しして予測を強化する新しいフレームワークである。
本フレームワークは,(1)記憶バンク相互作用を通じて時間的特徴を抽出する検索型学習者,(2)時系列を情報的画像としてエンコードするビジョン型学習者,(3)文脈的テキスト記述を生成するテキスト型学習者,の3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-02-06T05:59:45Z) - Unveiling the Potential of Text in High-Dimensional Time Series Forecasting [12.707274099874384]
本稿では,時系列モデルと大規模言語モデルを統合する新しいフレームワークを提案する。
マルチモーダルモデルにインスパイアされた本手法では, 時系列データとテキストデータを重塔構造で結合する。
テキストを組み込んだ実験により,高次元時系列予測性能が向上することが示された。
論文 参考訳(メタデータ) (2025-01-13T04:10:45Z) - VITRO: Vocabulary Inversion for Time-series Representation Optimization [21.338428379212704]
本稿では,自然言語の離散的,意味的な性質と時系列データの連続的,数値的性質とのギャップを埋めるために,VITROを提案する。
学習可能な時系列固有の擬単語埋め込みは、既存の汎用言語モデル語彙よりも時系列データの表現が優れていることを示す。
論文 参考訳(メタデータ) (2024-12-23T19:24:51Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。