論文の概要: MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs
- arxiv url: http://arxiv.org/abs/2603.05997v1
- Date: Fri, 06 Mar 2026 07:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.294921
- Title: MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs
- Title(参考訳): MM-ISTS:Multimodal Vision-Text LLMによる不規則サンプリング時系列予測の協調
- Authors: Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo,
- Abstract要約: 不規則にサンプリングされた時系列(ISTS)は実世界のシナリオで広く使われ、変数間の不均一な時間間隔に関する非同期な観察を示す。
ISTSの予測を容易にするため,時間的・視覚的・テキスト的モダリティを橋渡しするフレームワークMM-ISTSを提案する。
特に、情報的視覚画像とテキストデータを自動的に生成するクロスモーダル視覚テキスト符号化モジュールを提案する。
並行して、ISTSエンコーディングは、マルチビュー埋め込み融合や時間可変エンコーダを含む、歴史的ISTS観測から、補完的ながら豊富な時間的特徴を抽出する。
- 参考スコア(独自算出の注目度): 17.348428689125633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Irregularly sampled time series (ISTS) are widespread in real-world scenarios, exhibiting asynchronous observations on uneven time intervals across variables. Existing ISTS forecasting methods often solely utilize historical observations to predict future ones while falling short in learning contextual semantics and fine-grained temporal patterns. To address these problems, we achieve MM-ISTS, a multimodal framework augmented by vision-text large language models, that bridges temporal, visual, and textual modalities, facilitating ISTS forecasting. MM-ISTS encompasses a novel two-stage encoding mechanism. In particular, a cross-modal vision-text encoding module is proposed to automatically generate informative visual images and textual data, enabling the capture of intricate temporal patterns and comprehensive contextual understanding, in collaboration with multimodal LLMs (MLLMs). In parallel, ISTS encoding extracts complementary yet enriched temporal features from historical ISTS observations, including multi-view embedding fusion and a temporal-variable encoder. Further, we propose an adaptive query-based feature extractor to compress the learned tokens of MLLMs, filtering out small-scale useful knowledge, which in turn reduces computational costs. In addition, a multimodal alignment module with modality-aware gating is designed to alleviate the modality gap across ISTS, images, and text. Extensive experiments on real data offer insight into the effectiveness of the proposed solutions.
- Abstract(参考訳): 不規則にサンプリングされた時系列(ISTS)は実世界のシナリオで広く使われ、変数間の不均一な時間間隔に関する非同期な観察を示す。
既存のISTS予測手法は、文脈意味学や微粒な時間パターンの学習に不足しながら、過去の観測だけを利用して将来の予測を行うことが多い。
これらの問題に対処するため,視覚テキストによる大規模言語モデルによって拡張されたマルチモーダルフレームワークMM-ISTSが,時間的・視覚的・テキスト的モダリティを橋渡しし,ISTS予測を容易にする。
MM-ISTSは、新しい二段階符号化機構を含んでいる。
特に,マルチモーダルLLM(MLLM)と協調して,複雑な時間的パターンと包括的文脈理解を捕捉し,情報的視覚画像とテキストデータを自動的に生成するクロスモーダル視覚テキスト符号化モジュールを提案する。
並行して、ISTSエンコーディングは、マルチビュー埋め込み融合や時間可変エンコーダを含む、歴史的ISTS観測から、補完的ながら豊富な時間的特徴を抽出する。
さらに、MLLMの学習トークンを圧縮し、小規模で有用な知識をフィルタリングし、計算コストを削減できる適応型クエリベースの特徴抽出器を提案する。
さらに、ISTS、画像、テキスト間のモダリティギャップを軽減するために、モダリティを意識したゲーティングを備えたマルチモーダルアライメントモジュールが設計されている。
実データに関する大規模な実験は、提案されたソリューションの有効性についての洞察を提供する。
関連論文リスト
- Time-Prompt: Integrated Heterogeneous Prompts for Unlocking LLMs in Time Series Forecasting [13.283980715705693]
時系列予測は、変数間の時間的依存関係を将来の状態推論のためにモデル化することを目的としている。
深層学習に基づく手法は目覚ましい進歩を遂げているが, 長期的な予測では, 依然として準最適性能を示している。
本稿では,時系列予測のための大規模言語モデルを活性化するフレームワークであるTime-Promptを提案する。
論文 参考訳(メタデータ) (2025-06-21T08:22:25Z) - Context-Aware Probabilistic Modeling with LLM for Multimodal Time Series Forecasting [24.56167831047955]
本稿では,文脈を考慮した確率的マルチモーダル時系列予測手法であるCAPTimeを提案する。
提案手法はまず,事前学習した時系列エンコーダを用いて時間パターンを符号化し,学習可能なインタラクションを通じてテキストコンテキストと整列する。
多様な時系列予測タスクの実験では、CAPTimeの精度と一般化が優れている。
論文 参考訳(メタデータ) (2025-05-16T01:23:53Z) - LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。
既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。
時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文 参考訳(メタデータ) (2025-03-12T11:45:11Z) - TimeXL: Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [79.5773512667468]
TimeXLは、プロトタイプベースの時系列エンコーダと3つの協調する大規模言語モデルを統合するマルチモーダル予測フレームワークである。
リフレクションLLMは、予測された値と地上の真実を比較し、テキストの不整合やノイズを識別する。
このクローズドループワークフロー予測、批判(参照)、改善が連続的にフレームワークのパフォーマンスと解釈可能性を高めます。
論文 参考訳(メタデータ) (2025-03-02T20:40:53Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting [26.4608782425897]
Time-VLMは、時間的、視覚的、テキスト的なモダリティを橋渡しして予測を強化する新しいフレームワークである。
本フレームワークは,(1)記憶バンク相互作用を通じて時間的特徴を抽出する検索型学習者,(2)時系列を情報的画像としてエンコードするビジョン型学習者,(3)文脈的テキスト記述を生成するテキスト型学習者,の3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-02-06T05:59:45Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。