論文の概要: Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language
- arxiv url: http://arxiv.org/abs/2512.11251v1
- Date: Fri, 12 Dec 2025 03:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.639034
- Title: Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language
- Title(参考訳): Insight Miner: 自然言語によるドメイン間のアライメントのための時系列分析データセット
- Authors: Yunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang,
- Abstract要約: 時系列データは、環境分析、農業、交通、金融など、多くの科学分野や産業分野において重要である。
ドメイン固有知識に富んだ高品質で包括的な時系列記述を生成するために設計された大規模マルチモーダルモデル(LMM)である textbfInsight Miner を提案する。
- 参考スコア(独自算出の注目度): 22.067721916599655
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Time-series data is critical across many scientific and industrial domains, including environmental analysis, agriculture, transportation, and finance. However, mining insights from this data typically requires deep domain expertise, a process that is both time-consuming and labor-intensive. In this paper, we propose \textbf{Insight Miner}, a large-scale multimodal model (LMM) designed to generate high-quality, comprehensive time-series descriptions enriched with domain-specific knowledge. To facilitate this, we introduce \textbf{TS-Insights}\footnote{Available at \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}, the first general-domain dataset for time series and language alignment. TS-Insights contains 100k time-series windows sampled from 20 forecasting datasets. We construct this dataset using a novel \textbf{agentic workflow}, where we use statistical tools to extract features from raw time series before synthesizing them into coherent trend descriptions with GPT-4. Following instruction tuning on TS-Insights, Insight Miner outperforms state-of-the-art multimodal models, such as LLaVA \citep{liu2023llava} and GPT-4, in generating time-series descriptions and insights. Our findings suggest a promising direction for leveraging LMMs in time series analysis, and serve as a foundational step toward enabling LLMs to interpret time series as a native input modality.
- Abstract(参考訳): 時系列データは、環境分析、農業、交通、金融など、多くの科学分野や産業分野において重要である。
しかし、このデータから洞察を抽出するには、通常、時間と労働集約的なプロセスである深いドメインの専門知識が必要です。
本稿では,ドメイン固有知識に富んだ高品質で包括的な時系列記述を生成するために,大規模マルチモーダルモデル (LMM) である \textbf{Insight Miner} を提案する。
これを容易にするために、 \textbf{TS-Insights}\footnote{Available at \href{https://huggingface.co/datasets/zhykoties/time-series- language-alignment}{https://huggingface.co/datasets/zhykoties/time-series- language-alignment}を紹介します。
これは、時系列と言語アライメントのための最初の汎用ドメインデータセットである。
TS-Insightsには、20の予測データセットからサンプリングされた100万の時系列ウィンドウが含まれている。
このデータセットは,GPT-4と協調する傾向記述に合成する前に,統計ツールを用いて生の時系列から特徴を抽出する。
TS-Insightsの命令チューニングの後、Insight MinerはLLaVA \citep{liu2023llava} や GPT-4 のような最先端のマルチモーダルモデルよりも、時系列記述や洞察を生成する。
この結果から,LMMを時系列解析に活用するための有望な方向性が示唆され,LLMをネイティブな入力モダリティとして解釈するための基礎的なステップとして機能することが示唆された。
関連論文リスト
- Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。
また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文 参考訳(メタデータ) (2025-07-20T18:02:50Z) - BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modeling [51.830134409330704]
時系列生成(TSG、Time-Series Generation)は、シミュレーション、データ拡張、および反事実分析に広く応用された、顕著な研究分野である。
我々は、テキストが意味的な洞察、ドメイン情報、インスタンス固有の時間パターンを提供し、TSGをガイドし改善することができると論じている。
BRIDGEはテキスト制御型TSGフレームワークで,テキスト記述とセマンティックプロトタイプを統合し,ドメインレベルのガイダンスをサポートする。
論文 参考訳(メタデータ) (2025-03-04T09:40:00Z) - TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents [52.13094810313054]
TimeCAPは、時系列データのコンテキスト化ツールとしてLarge Language Models(LLM)を創造的に利用する時系列処理フレームワークである。
TimeCAPには2つの独立したLCMエージェントが組み込まれており、1つは時系列のコンテキストをキャプチャするテキスト要約を生成し、もう1つはより情報のある予測を行うためにこのリッチな要約を使用する。
実世界のデータセットによる実験結果から,TimeCAPは時系列イベント予測の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:17:27Z) - Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative [65.84249211767921]
テキスト・アズ・タイム・シリーズ(TaTS)は、既存の数値のみの時系列モデルにプラグインできる。
TaTSはモデルアーキテクチャを変更することなく予測性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-02-13T03:43:27Z) - Time Series Language Model for Descriptive Caption Generation [11.796431549951055]
本稿では,時系列キャプションに特化して設計された新しい時系列言語モデルTSLMを紹介する。
TSLMはエンコーダ・デコーダモデルとして機能し、テキストプロンプトと時系列データ表現の両方を活用する。
TSLMは、複数のデータモダリティから既存の最先端アプローチよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2025-01-03T14:34:30Z) - Metadata Matters for Time Series: Informative Forecasting with Transformers [70.38241681764738]
時系列予測のためのMetaTST(Metadata-informed Time Series Transformer)を提案する。
メタデータの非構造化の性質に取り組むため、MetaTSTは、事前に設計されたテンプレートによってそれらを自然言語に形式化する。
Transformerエンコーダは、メタデータ情報によるシーケンス表現を拡張するシリーズトークンとメタデータトークンの通信に使用される。
論文 参考訳(メタデータ) (2024-10-04T11:37:55Z) - Large Language Models for Time Series: A Survey [34.24258745427964]
大規模言語モデル (LLM) は自然言語処理やコンピュータビジョンといった領域で広く利用されている。
LLMは、気候、IoT、ヘルスケア、トラフィック、オーディオ、ファイナンスといった分野の恩恵を受けながら、時系列データを分析する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-02T07:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。