論文の概要: TSAQA: Time Series Analysis Question And Answering Benchmark
- arxiv url: http://arxiv.org/abs/2601.23204v1
- Date: Fri, 30 Jan 2026 17:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.584831
- Title: TSAQA: Time Series Analysis Question And Answering Benchmark
- Title(参考訳): TSAQA:時系列分析の質問とベンチマーク
- Authors: Baoyu Jing, Sanhorn Chen, Lecheng Zheng, Boyu Liu, Zihao Li, Jiaru Zou, Tianxin Wei, Zhining Liu, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Yuchen Yan, Dongqi Fu, Jingchao Ni, Jingrui He, Hanghang Tong,
- Abstract要約: 時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
- 参考スコア(独自算出の注目度): 85.35545785252309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series data are integral to critical applications across domains such as finance, healthcare, transportation, and environmental science. While recent work has begun to explore multi-task time series question answering (QA), current benchmarks remain limited to forecasting and anomaly detection tasks. We introduce TSAQA, a novel unified benchmark designed to broaden task coverage and evaluate diverse temporal analysis capabilities. TSAQA integrates six diverse tasks under a single framework ranging from conventional analysis, including anomaly detection and classification, to advanced analysis, such as characterization, comparison, data transformation, and temporal relationship analysis. Spanning 210k samples across 13 domains, the dataset employs diverse formats, including true-or-false (TF), multiple-choice (MC), and a novel puzzling (PZ), to comprehensively assess time series analysis. Zero-shot evaluation demonstrates that these tasks are challenging for current Large Language Models (LLMs): the best-performing commercial LLM, Gemini-2.5-Flash, achieves an average score of only 65.08. Although instruction tuning boosts open-source performance: the best-performing open-source model, LLaMA-3.1-8B, shows significant room for improvement, highlighting the complexity of temporal analysis for LLMs.
- Abstract(参考訳): 時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
近年、マルチタスク時系列質問応答 (QA) の研究が始まっているが、現在のベンチマークは予測タスクと異常検出タスクに限られている。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
TSAQAは、異常検出や分類を含む従来の分析から、特徴づけ、比較、データ変換、時間的関係解析といった高度な分析まで、単一のフレームワークの下で6つの多様なタスクを統合する。
13のドメインにまたがる210kサンプルをスパンニングすることで、データセットは、真または偽(TF)、多重選択(MC)、新しいファズリング(PZ)など、さまざまなフォーマットを使用して、時系列分析を包括的に評価する。
ゼロショット評価は、これらのタスクが現在のLarge Language Models (LLMs) にとって難しいことを証明している。
命令チューニングはオープンソースのパフォーマンスを向上するが、最高のパフォーマンスのオープンソースモデルであるLLaMA-3.1-8Bは、LLMの時間解析の複雑さを強調しながら、改善の余地をかなり示している。
関連論文リスト
- TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models [105.47481207029047]
時系列を推論する3つの基本的な機能にまたがる4つのアトミックタスクを形式化した時系列推論スイート(TSR-Suite)を紹介する。
また,時系列推論を必要とする多種多様な実世界の問題に対処するために設計された最初の統一推論モデルであるTime Omni-1を紹介する。
論文 参考訳(メタデータ) (2025-09-29T13:54:34Z) - When LLM Meets Time Series: Can LLMs Perform Multi-Step Time Series Reasoning and Inference [12.867006554196358]
我々は、時系列AIアシスタントとしてLarge Language Modelsを評価する最初の試みであるTSAIAベンチマークを紹介する。
このベンチマークには、制約認識予測からしきい値校正による異常検出まで、幅広い課題が含まれている。
このベンチマークを適用し、統一評価プロトコルの下で8つの最先端LCMを評価する。
論文 参考訳(メタデータ) (2025-09-01T22:58:57Z) - Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。
また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文 参考訳(メタデータ) (2025-07-20T18:02:50Z) - Towards Cross-Modality Modeling for Time Series Analytics: A Survey in the LLM Era [24.980206999214552]
大規模言語モデル(LLM)が時系列分析の新しいパラダイムとして登場した。
LLMはテキストコーパスで事前訓練されており、本質的に時系列に最適化されていない。
この調査は、LLMベースの時系列モデリングに関心のある専門家、研究者、実践者向けに設計されている。
論文 参考訳(メタデータ) (2025-05-05T11:35:33Z) - Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models [104.17057231661371]
時系列解析は複雑なシステムの力学を理解するために重要である。
基本モデルの最近の進歩はタスク非依存の時系列基礎モデル (TSFM) と大規模言語モデルベース時系列モデル (TSLLM) につながっている。
彼らの成功は、規制、多様性、品質、量制約のために構築が困難である、大規模で多様で高品質なデータセットに依存する。
本調査では,TSFMとTLLLMの合成データの総合的なレビュー,データ生成戦略の分析,モデル事前学習におけるそれらの役割,微調整,評価,今後の研究方向性の特定について述べる。
論文 参考訳(メタデータ) (2025-03-14T13:53:46Z) - Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。
Time-MQAの中心はTSQAデータセットである。
論文 参考訳(メタデータ) (2025-02-26T13:47:13Z) - Are Large Language Models Useful for Time Series Data Analysis? [3.44393516559102]
時系列データは、医療、エネルギー、金融といった様々な分野において重要な役割を果たす。
本研究では,大規模言語モデル(LLM)が時系列データ解析に有効かどうかを検討する。
論文 参考訳(メタデータ) (2024-12-16T02:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。