論文の概要: TimeSage-MT: A Multi-Turn Benchmark for Evaluating Agentic Time Series Reasoning
- arxiv url: http://arxiv.org/abs/2606.01498v1
- Date: Sun, 31 May 2026 23:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.736976
- Title: TimeSage-MT: A Multi-Turn Benchmark for Evaluating Agentic Time Series Reasoning
- Title(参考訳): TimeSage-MT:エージェント時系列推論評価のためのマルチTurnベンチマーク
- Authors: Yaxuan Kong, Qingren Yao, Yuqi Nie, Yichen Li, Yilei Shao, Stefan Zohren, Anna Vettoruzzo, Joaquin Vanschoren, Ming Jin, Qingsong Wen,
- Abstract要約: 時系列データは、多くの現実世界のドメインに対して重要な決定を通知する。
大規模言語モデル (LLM) エージェントがマルチターン会話を通して信頼できる時系列解析を行うことができるかどうかは不明である。
TimeSage-MTは、240のタスクと2,680の対話が8つの現実世界のドメインにまたがるエージェント時系列推論のベンチマークである。
- 参考スコア(独自算出の注目度): 44.68126840122709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series data inform critical decisions across many real-world domains. While large language model (LLM) agents can analyze data through natural language and tools, it remains unclear whether they can conduct reliable time series analysis across multi-turn conversations. Existing benchmarks focus on single-step tasks such as forecasting and anomaly detection, overlooking practical workflows where user goals evolve, agents must build on prior analyses, and conclusions emerge from accumulated evidence. In this work, we introduce TimeSage-MT, a multi-turn benchmark for agentic time series reasoning with 240 tasks and 2,680 dialogue turns across 8 real-world domains, spanning basic exploration to decision-oriented analysis. TimeSage-MT is built through a reproducible pipeline that converts real-world time series data into multi-turn conversations with verifiable answers. It provides a unified evaluation protocol and public leaderboard for comparing time series agentic systems. To demonstrate the benchmark's utility, we evaluate frontier LLMs alongside TimeSage, a novel structured agent equipped with a comprehensive time series skill library. The results show sharp performance drops on decision-oriented tasks, driven by failures in memory, uncertainty handling, and domain-based decision making. TimeSage-MT exposes critical gaps in current agentic reasoning and provides a rigorous foundation for future development.
- Abstract(参考訳): 時系列データは、多くの現実世界のドメインに対して重要な決定を通知する。
大規模言語モデル(LLM)エージェントは、自然言語やツールを通じてデータを分析できるが、マルチターン会話を通して信頼できる時系列分析を行うことができるかどうかは不明だ。
既存のベンチマークでは、予測や異常検出といった単一ステップのタスク、ユーザの目標が進化する実践的なワークフローを見渡すこと、エージェントは事前分析に基づいて構築する必要があること、蓄積されたエビデンスから結論が現れることなどに重点を置いている。
本研究では,240のタスクと2,680の対話を伴うエージェント時系列推論のためのマルチターンベンチマークであるTimeSage-MTを紹介する。
TimeSage-MTは、実世界の時系列データを検証可能な回答を伴うマルチターン会話に変換する再現可能なパイプラインを通じて構築される。
時系列エージェントシステムを比較するための統一評価プロトコルと公開リーダボードを提供する。
ベンチマークの有用性を示すため,時系列スキルライブラリを備えた新しい構造化エージェントであるTimeSageとともに,フロンティアLLMを評価した。
結果は、メモリの障害、不確実性処理、ドメインベースの意思決定などによって引き起こされる、意思決定指向タスクのパフォーマンスが急落したことを示している。
TimeSage-MTは、現在のエージェント推論における重要なギャップを明らかにし、将来の開発に厳格な基盤を提供する。
関連論文リスト
- TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文 参考訳(メタデータ) (2026-01-30T17:28:56Z) - TS-Agent: A Time Series Reasoning Agent with Iterative Statistical Insight Gathering [16.95452463476229]
大規模言語モデル(LLM)のための時系列推論エージェントTS-Agentを提案する。
時系列をテキストトークン、画像、埋め込みにマッピングする代わりに、我々のエージェントは原子演算子を介して生の数値列と相互作用する。
実験の結果,TS-Agent は理解ベンチマークの最先端 LLM に匹敵する性能を達成できた。
論文 参考訳(メタデータ) (2025-10-08T18:31:53Z) - When LLM Meets Time Series: Can LLMs Perform Multi-Step Time Series Reasoning and Inference [12.867006554196358]
我々は、時系列AIアシスタントとしてLarge Language Modelsを評価する最初の試みであるTSAIAベンチマークを紹介する。
このベンチマークには、制約認識予測からしきい値校正による異常検出まで、幅広い課題が含まれている。
このベンチマークを適用し、統一評価プロトコルの下で8つの最先端LCMを評価する。
論文 参考訳(メタデータ) (2025-09-01T22:58:57Z) - Timing Analysis Agent: Autonomous Multi-Corner Multi-Mode (MCMM) Timing Debugging with Timing Debug Relation Graph [1.6392250108065922]
小さな金属ピッチとデバイス数の増加は、経験豊富な人間デザイナーがタイミング問題をデバッグするのに長いターンアラウンドタイムをもたらしている。
大きな言語モデル(LLM)は、言語理解と対話的な意思決定において、様々なタスクにおいて大きな可能性を示しています。
我々は、レポートと経験豊富なタイミングエンジニアのデバッグトレースの関係を結びつけるTDRG(Timing Relation Graph)を構築します。
論文 参考訳(メタデータ) (2025-04-15T04:14:36Z) - Multi-modal Time Series Analysis: A Tutorial and Survey [36.93906365779472]
マルチモーダル時系列分析はデータマイニングにおいて顕著な研究領域となっている。
しかし、マルチモーダル時系列の効果的な解析は、データの不均一性、モダリティギャップ、不整合、固有ノイズによって妨げられる。
マルチモーダル時系列法の最近の進歩は、クロスモーダル相互作用を通じて、マルチモーダルコンテキストを利用した。
論文 参考訳(メタデータ) (2025-03-17T20:30:02Z) - Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。
Time-MQAの中心はTSQAデータセットである。
論文 参考訳(メタデータ) (2025-02-26T13:47:13Z) - Position: What Can Large Language Models Tell Us about Time Series Analysis [69.70906014827547]
現在の大規模言語モデル(LLM)は時系列解析に革命をもたらす可能性があると我々は主張する。
このような進歩は、時系列のモダリティスイッチングや質問応答など、幅広い可能性を解き放つ可能性がある。
論文 参考訳(メタデータ) (2024-02-05T04:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。