論文の概要: When Does Multimodality Lead to Better Time Series Forecasting?
- arxiv url: http://arxiv.org/abs/2506.21611v2
- Date: Mon, 29 Sep 2025 20:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 19:34:21.406595
- Title: When Does Multimodality Lead to Better Time Series Forecasting?
- Title(参考訳): マルチモーダリティはいつ時系列予測を改善するのか?
- Authors: Xiyuan Zhang, Boran Han, Haoyang Fang, Abdul Fatir Ansari, Shuai Zhang, Danielle C. Maddix, Cuixiong Hu, Andrew Gordon Wilson, Michael W. Mahoney, Hao Wang, Yan Liu, Huzefa Rangwala, George Karypis, Bernie Wang,
- Abstract要約: このようなマルチモーダルな統合が常に利益をもたらすかどうか、どのような条件で検討する。
その結果,マルチモーダリティの利点は条件に依存していることが判明した。
我々の研究は、マルチモーダリティが予測タスクに役立つことをいつ予測できるかを理解するための厳密で定量的な基礎を提供する。
- 参考スコア(独自算出の注目度): 96.26052272121615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been growing interest in incorporating textual information into foundation models for time series forecasting. However, it remains unclear whether and under what conditions such multimodal integration consistently yields gains. We systematically investigate these questions across a diverse benchmark of 16 forecasting tasks spanning 7 domains, including health, environment, and economics. We evaluate two popular multimodal forecasting paradigms: aligning-based methods, which align time series and text representations; and prompting-based methods, which directly prompt large language models for forecasting. Our findings reveal that the benefits of multimodality are highly condition-dependent. While we confirm reported gains in some settings, these improvements are not universal across datasets or models. To move beyond empirical observations, we disentangle the effects of model architectural properties and data characteristics, drawing data-agnostic insights that generalize across domains. Our findings highlight that on the modeling side, incorporating text information is most helpful given (1) high-capacity text models, (2) comparatively weaker time series models, and (3) appropriate aligning strategies. On the data side, performance gains are more likely when (4) sufficient training data is available and (5) the text offers complementary predictive signal beyond what is already captured from the time series alone. Our study offers a rigorous, quantitative foundation for understanding when multimodality can be expected to aid forecasting tasks, and reveals that its benefits are neither universal nor always aligned with intuition.
- Abstract(参考訳): 近年,時系列予測の基礎モデルにテキスト情報を統合することへの関心が高まっている。
しかし、そのようなマルチモーダル積分がどのような条件で常に得られるかは、まだ不明である。
健康・環境・経済を含む7つの領域にまたがる16の予測タスクの多種多様なベンチマークでこれらの質問を体系的に調査する。
本稿では,時系列とテキスト表現をアライメントするアライメント・ベース・メソッドと,予測のための大規模言語モデルを直接促進するプロンプト・ベース・メソッドの2つの一般的なマルチモーダル予測パラダイムを評価する。
その結果,マルチモーダリティの利点は条件に依存していることが判明した。
いくつかの設定で改善が報告されていることを確認していますが、これらの改善はデータセットやモデル全体で普遍的ではありません。
経験的観察を超えて、我々は、モデルアーキテクチャ特性とデータ特性の影響を解き、ドメインをまたがって一般化するデータに依存しない洞察を引き出す。
その結果,1)高容量テキストモデル,(2)比較的弱い時系列モデル,(3)適切な整合戦略などにより,テキスト情報を組み込むことが最も有用であることが示唆された。
データ側では、(4)十分なトレーニングデータが利用可能で、(5)テキストは、時系列のみから取得したデータを超える補完的な予測信号を提供する場合、パフォーマンスが向上する可能性が高い。
我々の研究は、マルチモーダリティが予測タスクに役立つことをいつ予測できるかを理解するための厳密で定量的な基礎を提供し、その利点が普遍的でも直観と常に一致していないことを明らかにしている。
関連論文リスト
- DP-GPT4MTS: Dual-Prompt Large Language Model for Textual-Numerical Time Series Forecasting [2.359557447960552]
本稿ではDP-GPT4MTS(Dual-Prompt GPT2-base for Multimodal Time Series)を紹介する。
明確なタスク命令の明示的なプロンプトと、タイムスタンプされたデータからのコンテキスト認識の埋め込みのテキストプロンプトの2つの補完的なプロンプトを組み合わせる。
多様なテクスチュラル・数値時系列データセットを用いて行った実験は、この手法が時系列予測において最先端のアルゴリズムより優れていることを示した。
論文 参考訳(メタデータ) (2025-08-06T09:25:05Z) - Teaching Time Series to See and Speak: Forecasting with Aligned Visual and Textual Perspectives [22.10401153489018]
時系列の予測は伝統的に単調な数値入力に依存している。
生の時系列を構造化された視覚的・テキスト的視点に変換するマルチモーダルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T17:59:14Z) - MoTime: A Dataset Suite for Multimodal Time Series Forecasting [10.574030048563477]
MoTimeは、データセットのマルチモーダル時系列予測スイートである。
時間信号とテキスト、メタデータ、画像などの外部モダリティをペアリングする。
論文 参考訳(メタデータ) (2025-05-21T03:39:42Z) - TimesBERT: A BERT-Style Foundation Model for Time Series Understanding [72.64824086839631]
GPTスタイルのモデルは時系列予測の基礎モデルとして位置づけられている。
BERTスタイルのアーキテクチャは時系列理解のために完全にアンロックされていない。
時系列の汎用表現を学ぶために TimesBERT を設計する。
私たちのモデルは、さまざまなドメインにまたがる2600億のタイムポイントで事前トレーニングされています。
論文 参考訳(メタデータ) (2025-02-28T17:14:44Z) - TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents [52.13094810313054]
TimeCAPは、時系列データのコンテキスト化ツールとしてLarge Language Models(LLM)を創造的に利用する時系列処理フレームワークである。
TimeCAPには2つの独立したLCMエージェントが組み込まれており、1つは時系列のコンテキストをキャプチャするテキスト要約を生成し、もう1つはより情報のある予測を行うためにこのリッチな要約を使用する。
実世界のデータセットによる実験結果から,TimeCAPは時系列イベント予測の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:17:27Z) - Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Context Matters: Leveraging Contextual Features for Time Series Forecasting [2.9687381456164004]
既存の予測モデルにマルチモーダルなコンテキスト情報を外科的に統合する新しいプラグイン・アンド・プレイ手法であるContextFormerを導入する。
ContextFormerは、カテゴリ、連続、時間変化、さらにはテキスト情報を含む、リッチなマルチモーダルコンテキストから予測固有の情報を効果的に蒸留する。
エネルギー、交通、環境、金融ドメインにまたがるさまざまな実世界のデータセットにおいて、SOTA予測モデルを最大30%上回ります。
論文 参考訳(メタデータ) (2024-10-16T15:36:13Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。