論文の概要: When LLM Meets Time Series: Can LLMs Perform Multi-Step Time Series Reasoning and Inference
- arxiv url: http://arxiv.org/abs/2509.01822v1
- Date: Mon, 01 Sep 2025 22:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.856854
- Title: When LLM Meets Time Series: Can LLMs Perform Multi-Step Time Series Reasoning and Inference
- Title(参考訳): LLMが時系列に出会った時 - LLMはマルチステップの時系列推論と推論を実行可能か
- Authors: Wen Ye, Jinbo Liu, Defu Cao, Wei Yang, Yan Liu,
- Abstract要約: 我々は、時系列AIアシスタントとしてLarge Language Modelsを評価する最初の試みであるTSAIAベンチマークを紹介する。
このベンチマークには、制約認識予測からしきい値校正による異常検出まで、幅広い課題が含まれている。
このベンチマークを適用し、統一評価プロトコルの下で8つの最先端LCMを評価する。
- 参考スコア(独自算出の注目度): 12.867006554196358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has sparked growing interest in their application to time series analysis tasks. However, their ability to perform complex reasoning over temporal data in real-world application domains remains underexplored. To move toward this goal, a first step is to establish a rigorous benchmark dataset for evaluation. In this work, we introduce the TSAIA Benchmark, a first attempt to evaluate LLMs as time-series AI assistants. To ensure both scientific rigor and practical relevance, we surveyed over 20 academic publications and identified 33 real-world task formulations. The benchmark encompasses a broad spectrum of challenges, ranging from constraint-aware forecasting to anomaly detection with threshold calibration: tasks that require compositional reasoning and multi-step time series analysis. The question generator is designed to be dynamic and extensible, supporting continuous expansion as new datasets or task types are introduced. Given the heterogeneous nature of the tasks, we adopt task-specific success criteria and tailored inference-quality metrics to ensure meaningful evaluation for each task. We apply this benchmark to assess eight state-of-the-art LLMs under a unified evaluation protocol. Our analysis reveals limitations in current models' ability to assemble complex time series analysis workflows, underscoring the need for specialized methodologies for domain-specific adaptation. Our benchmark is available at https://huggingface.co/datasets/Melady/TSAIA, and the code is available at https://github.com/USC-Melady/TSAIA.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、時系列分析タスクへの応用に対する関心の高まりを引き起こしている。
しかし、現実世界のアプリケーションドメインにおいて、時間的データに対して複雑な推論を行う能力は、まだ未定である。
この目標に向かって進む第一歩は、評価のための厳格なベンチマークデータセットを確立することです。
本稿では,時系列AIアシスタントとしてLLMを評価する最初の試みであるTSAIA Benchmarkを紹介する。
科学的厳密さと実践的妥当性を両立させるために,20以上の学術出版物を調査し,33の実世界のタスク・フォーミュレーションを特定した。
このベンチマークは、制約認識予測からしきい値キャリブレーションによる異常検出(構成推論と多段階時系列解析を必要とするタスク)まで、幅広い課題を含んでいる。
質問生成器は動的で拡張可能なように設計されており、新しいデータセットやタスクタイプが導入されるにつれて、継続的な拡張をサポートする。
タスクの異種性を考えると、タスク固有の成功基準と、各タスクに対する有意義な評価を保証するために、推論品質の指標を調整した。
このベンチマークを適用し、統一評価プロトコルの下で8つの最先端LCMを評価する。
我々の分析は、複雑な時系列分析ワークフローを組み立てる現在のモデルの能力の限界を明らかにし、ドメイン固有の適応のための特殊な方法論の必要性を強調している。
私たちのベンチマークはhttps://huggingface.co/datasets/Melady/TSAIAで、コードはhttps://github.com/USC-Melady/TSAIAで利用可能です。
関連論文リスト
- Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。
また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文 参考訳(メタデータ) (2025-07-20T18:02:50Z) - TimeSeriesGym: A Scalable Benchmark for (Time Series) Machine Learning Engineering Agents [17.296425855109426]
人工知能(AI)エージェントを評価するためのスケーラブルなベンチマークフレームワークであるTimeSeriesGymを紹介する。
TimeSeriesGymには、複数のドメインやタスクにまたがるさまざまなソースからの課題が含まれている。
提出ファイルやコード,モデルなど,複数の研究成果物に対する評価機構を実装した。
論文 参考訳(メタデータ) (2025-05-19T16:11:23Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data [1.2979906794584584]
訓練中に存在しないデータに対する時間的推論タスクにおけるLarge Language Model(LLM)の適用性はまだ検討されていない分野である。
本稿では、構造化および半構造化された匿名化データに焦点をあてて、このトピックについて論じる。
自然言語における17の共通時間的推論タスクを特定し,そのアルゴリズム的構成要素に着目した。
論文 参考訳(メタデータ) (2025-04-10T10:48:42Z) - Are Large Language Models Useful for Time Series Data Analysis? [3.44393516559102]
時系列データは、医療、エネルギー、金融といった様々な分野において重要な役割を果たす。
本研究では,大規模言語モデル(LLM)が時系列データ解析に有効かどうかを検討する。
論文 参考訳(メタデータ) (2024-12-16T02:47:44Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Empowering Time Series Analysis with Large Language Models: A Survey [24.202539098675953]
本稿では,大規模言語モデルを用いた時系列解析手法の体系的概要について述べる。
具体的には、まず、時系列の文脈で言語モデルを適用する際の課題とモチベーションについて述べる。
次に、既存のメソッドを異なるグループ(ダイレクトクエリ、トークン化、プロンプトデザイン、ファインチューン、モデル統合)に分類し、各グループにおける主要なアイデアを強調します。
論文 参考訳(メタデータ) (2024-02-05T16:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。