論文の概要: ARFBench: Benchmarking Time Series Question Answering Ability for Software Incident Response
- arxiv url: http://arxiv.org/abs/2604.21199v1
- Date: Thu, 23 Apr 2026 01:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.235417
- Title: ARFBench: Benchmarking Time Series Question Answering Ability for Software Incident Response
- Title(参考訳): ARFBench: ソフトウェアインシデント対応に関する時系列質問のベンチマーク
- Authors: Stephan Xie, Ben Cohen, Mononito Goswami, Junhong Shen, Emaad Khwaja, Chenghao Liu, David Asker, Othmane Abou-Amal, Ameet Talwalkar,
- Abstract要約: 時系列質問回答(TSQA)は、基礎モデルの未調査機能として有望である。
ARFBenchは、142の時系列にわたる750の質問と、Datadogの内部テレメトリからのみ得られる63のプロダクションインシデントから538万のデータポイントで構成されている。
我々は,F1とフロンティアモデルに比較して精度の高い合成データと実データを組み合わせた,新しいTSFM+VLMハイブリッドプロトタイプを開発した。
- 参考スコア(独自算出の注目度): 33.890280378630884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time series question-answering (TSQA), in which we ask natural language questions to infer and reason about properties of time series, is a promising yet underexplored capability of foundation models. In this work, we present ARFBench, a TSQA benchmark that evaluates the understanding of multimodal foundation models (FMs) on time series anomalies prevalent in software incident data. ARFBench consists of 750 questions across 142 time series and 5.38M data points from 63 production incidents sourced exclusively from internal telemetry at Datadog. We evaluate leading proprietary and open-source LLMs, VLMs, and time series FMs and observe that frontier VLMs perform markedly better than existing baselines; the leading model (GPT-5) achieves a 62.7% accuracy and 51.9% F1. We next demonstrate the promise of specialized multimodal approaches. We develop a novel TSFM + VLM hybrid prototype which we post-train on a small set of synthetic and real data that yields comparable overall F1 and accuracy with frontier models. Lastly, we find models and human domain experts exhibit complementary strengths. We define a model-expert oracle, a best-of-2 oracle selector over model and expert answers, yielding 82.8% F1 and 87.2% accuracy and establishing a new superhuman frontier for future TSQA models. The benchmark is available at https://huggingface.co/datasets/Datadog/ARFBench.
- Abstract(参考訳): 時系列質問答え(TSQA)では,時系列の性質を推論し,推論するために自然言語で質問する。
本研究では,ソフトウェアインシデントデータによく見られる時系列異常に対するマルチモーダル基礎モデル(FM)の理解を評価するTSQAベンチマークであるARFBenchを提案する。
ARFBenchは、142の時系列にわたる750の質問と、Datadogの内部テレメトリからのみ得られる63のプロダクションインシデントから538万のデータポイントで構成されている。
我々は、プロプライエタリでオープンソースのLLM、VLM、時系列FMを評価し、フロンティアVLMが既存のベースラインよりも著しく優れていることを観察し、リードモデル(GPT-5)は62.7%の精度と51.9%のF1を達成する。
次に、特殊マルチモーダルアプローチの可能性を実証する。
我々は,F1とフロンティアモデルに比較して精度の高い合成データと実データを組み合わせた,新しいTSFM+VLMハイブリッドプロトタイプを開発した。
最後に、モデルと人間のドメインの専門家が補完的な強みを示します。
モデルエキスパートのオラクル、モデルと専門家の回答に対するベスト2のオラクルセレクタを定義し、82.8%のF1と87.2%の精度で、将来のTSQAモデルの新たなスーパーヒューマンフロンティアを確立する。
ベンチマークはhttps://huggingface.co/datasets/Datadog/ARFBench.orgで公開されている。
関連論文リスト
- TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文 参考訳(メタデータ) (2026-01-30T17:28:56Z) - In-Context and Few-Shots Learning for Forecasting Time Series Data based on Large Language Models [0.0]
本稿では,LLMモデルを用いた時系列データ予測の性能について検討する。
OpenAI tt o4-mini と Gemini 2.5 Flash Lite を用いて,LLM をコンテキスト内,ゼロショット学習,少数ショット学習,時系列データの予測を通じてトレーニングする。
以上の結果から, TimesFMはRMSE値が0.3023, 競合推論時間が266秒で, 総合性能が最高であることが示唆された。
論文 参考訳(メタデータ) (2025-12-08T16:52:46Z) - MoFE-Time: Mixture of Frequency Domain Experts for Time-Series Forecasting Models [11.374098795890738]
MoFE-Timeは、Mixture of Experts (MoE)ネットワーク内に時間と周波数ドメインの機能を統合する。
MoFE-Timeは最先端のパフォーマンスを新たに達成し、MSEとMAEはTime-MoEよりも6.95%、MAEは6.02%削減された。
本手法は, 実運用におけるMoFE-Timeモデルの有効性を実証し, 本データセットの優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-09T03:00:56Z) - Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。
YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。
我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-05-20T14:31:06Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting [35.505530132151]
時系列予測(TSF)は、金融投資、気象サービス、エネルギー管理など、多くの分野で重要な機能である。
多くのTSFメソッドはドメイン固有のデータ収集とモデルトレーニングを必要とし、他のドメインに適用してもうまく一般化しない。
大規模な異種時系列データに基づいて事前訓練された時系列基礎モデル(TSFM)は、これらの制限を克服することを目的としている。
論文 参考訳(メタデータ) (2024-10-15T17:23:49Z) - GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。