論文の概要: Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2502.04395v1
- Date: Thu, 06 Feb 2025 05:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:41.329701
- Title: Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting
- Title(参考訳): Time-VLM: 拡張時系列予測のためのマルチモーダルビジョンランゲージモデルの検討
- Authors: Siru Zhong, Weilin Ruan, Ming Jin, Huan Li, Qingsong Wen, Yuxuan Liang,
- Abstract要約: Time-VLMは、時間的、視覚的、テキスト的なモダリティを橋渡しして予測を強化する新しいフレームワークである。
本フレームワークは,(1)記憶バンク相互作用を通じて時間的特徴を抽出する検索型学習者,(2)時系列を情報的画像としてエンコードするビジョン型学習者,(3)文脈的テキスト記述を生成するテキスト型学習者,の3つのキーコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 26.4608782425897
- License:
- Abstract: Recent advancements in time series forecasting have explored augmenting models with text or vision modalities to improve accuracy. While text provides contextual understanding, it often lacks fine-grained temporal details. Conversely, vision captures intricate temporal patterns but lacks semantic context, limiting the complementary potential of these modalities. To address this, we propose Time-VLM, a novel multimodal framework that leverages pre-trained Vision-Language Models (VLMs) to bridge temporal, visual, and textual modalities for enhanced forecasting. Our framework comprises three key components: (1) a Retrieval-Augmented Learner, which extracts enriched temporal features through memory bank interactions; (2) a Vision-Augmented Learner, which encodes time series as informative images; and (3) a Text-Augmented Learner, which generates contextual textual descriptions. These components collaborate with frozen pre-trained VLMs to produce multimodal embeddings, which are then fused with temporal features for final prediction. Extensive experiments across diverse datasets demonstrate that Time-VLM achieves superior performance, particularly in few-shot and zero-shot scenarios, thereby establishing a new direction for multimodal time series forecasting.
- Abstract(参考訳): 時系列予測の最近の進歩は、精度を向上させるために、テキストや視覚のモダリティによるモデルの拡張を探求している。
テキストは文脈的理解を提供するが、しばしば微細な時間的詳細を欠いている。
逆に、視覚は複雑な時間パターンをキャプチャするが、意味的な文脈が欠如しており、これらのモダリティの補完的なポテンシャルを制限している。
そこで本研究では,事前学習された視覚言語モデル(VLM)を利用して,時間的・視覚的・テキスト的モダリティを橋渡しし,予測を向上する新しいマルチモーダルフレームワークであるTime-VLMを提案する。
本フレームワークは,(1)記憶バンク相互作用を通じて時間的特徴を抽出する検索型学習者,(2)時系列を情報的画像としてエンコードするビジョン型学習者,(3)文脈的テキスト記述を生成するテキスト型学習者,の3つのキーコンポーネントから構成される。
これらのコンポーネントは、凍結した事前学習されたVLMと協調してマルチモーダル埋め込みを生成し、最終的な予測のために時間的特徴と融合する。
多様なデータセットにわたる大規模な実験により、特にショット数やゼロショットのシナリオにおいて、Time-VLMは優れたパフォーマンスを達成し、マルチモーダル時系列予測の新しい方向性を確立することが示されている。
関連論文リスト
- TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents [52.13094810313054]
TimeCAPは、時系列データのコンテキスト化ツールとしてLarge Language Models(LLM)を創造的に利用する時系列処理フレームワークである。
TimeCAPには2つの独立したLCMエージェントが組み込まれており、1つは時系列のコンテキストをキャプチャするテキスト要約を生成し、もう1つはより情報のある予測を行うためにこのリッチな要約を使用する。
実世界のデータセットによる実験結果から,TimeCAPは時系列イベント予測の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:17:27Z) - Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative [65.84249211767921]
テキスト・アズ・タイム・シリーズ(英語版) (TaTS) は時系列の補助変数であると考えている。
TaTSは、既存の数値のみの時系列モデルにプラグインすることができ、ペア化されたテキストで時系列データを効率的に処理することができる。
論文 参考訳(メタデータ) (2025-02-13T03:43:27Z) - TempoGPT: Enhancing Temporal Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。
ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。
広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文 参考訳(メタデータ) (2025-01-13T13:47:05Z) - Unveiling the Potential of Text in High-Dimensional Time Series Forecasting [12.707274099874384]
本稿では,時系列モデルと大規模言語モデルを統合する新しいフレームワークを提案する。
マルチモーダルモデルにインスパイアされた本手法では, 時系列データとテキストデータを重塔構造で結合する。
テキストを組み込んだ実験により,高次元時系列予測性能が向上することが示された。
論文 参考訳(メタデータ) (2025-01-13T04:10:45Z) - Text2Freq: Learning Series Patterns from Text via Frequency Domain [8.922661807801227]
Text2Freqは、周波数領域を介してテキストと時系列データを統合したモダリティモデルである。
実物価格と合成テキストのペアデータセットによる実験により,Text2Freqが最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-11-01T16:11:02Z) - Multi-Patch Prediction: Adapting LLMs for Time Series Representation
Learning [22.28251586213348]
aLLM4TSは、時系列表現学習にLarge Language Models(LLM)を適用する革新的なフレームワークである。
われわれのフレームワークの特筆すべき要素はパッチワイドデコーディング層である。
論文 参考訳(メタデータ) (2024-02-07T13:51:26Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。