論文の概要: BEDTime: A Unified Benchmark for Automatically Describing Time Series
- arxiv url: http://arxiv.org/abs/2509.05215v1
- Date: Fri, 05 Sep 2025 16:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.652245
- Title: BEDTime: A Unified Benchmark for Automatically Describing Time Series
- Title(参考訳): BEDTime: 時系列の自動記述のための統一ベンチマーク
- Authors: Medhasweta Sen, Zachary Gottesman, Jiaxing Qiu, C. Bayan Bruss, Nam Nguyen, Tom Hartvigsen,
- Abstract要約: 汎用自然言語を用いて時系列を記述するモデルの能力をテストする3つのタスクを形式化し評価する。
次に、4つの最新のデータセットを統一して、各タスクにおけるヘッド・ツー・ヘッドモデルの比較を可能にします。
- 参考スコア(独自算出の注目度): 8.466823017204641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent studies have proposed general-purpose foundation models designed for a variety of time series analysis tasks. While several established datasets already exist for evaluating these models, previous works frequently introduce their models in conjunction with new datasets, limiting opportunities for direct, independent comparisons and obscuring insights into the relative strengths of different methods. Additionally, prior evaluations often cover numerous tasks simultaneously, assessing a broad range of model abilities without clearly pinpointing which capabilities contribute to overall performance. To address these gaps, we formalize and evaluate 3 tasks that test a model's ability to describe time series using generic natural language: (1) recognition (True/False question-answering), (2) differentiation (multiple choice question-answering), and (3) generation (open-ended natural language description). We then unify 4 recent datasets to enable head-to-head model comparisons on each task. Experimentally, in evaluating 13 state-of-the-art language, vision--language, and time series--language models, we find that (1) popular language-only methods largely underperform, indicating a need for time series-specific architectures, (2) VLMs are quite successful, as expected, identifying the value of vision models for these tasks and (3) pretrained multimodal time series--language models successfully outperform LLMs, but still have significant room for improvement. We also find that all approaches exhibit clear fragility in a range of robustness tests. Overall, our benchmark provides a standardized evaluation on a task necessary for time series reasoning systems.
- Abstract(参考訳): 近年,様々な時系列解析タスク用に設計された汎用基礎モデルが提案されている。
これらのモデルを評価するためにすでに確立されたデータセットがいくつか存在するが、以前の研究では、しばしば新しいデータセットとともにモデルを導入し、直接、独立した比較の機会を制限し、異なるメソッドの相対的な強度に関する洞察を隠蔽している。
さらに、事前評価は、多くのタスクを同時にカバーし、どの能力が全体的なパフォーマンスに寄与するかを明確に特定することなく、広範囲のモデル能力を評価する。
これらのギャップに対処するため,本研究では,(1)認識(True/False質問回答),(2)微分(複数選択質問回答),(3)生成(オープンな自然言語記述)という,モデルが時系列を記述できる能力をテストする3つのタスクを形式化し,評価する。
次に、4つの最新のデータセットを統一して、各タスクにおけるヘッド・ツー・ヘッドモデルの比較を可能にします。
実験的に13の最先端言語, ビジョン言語, 時系列言語モデルの評価において, (1) 一般的な言語のみの手法は概ね性能が劣り, 時系列固有のアーキテクチャの必要性が示され, (2) VLM は期待通り成功し, それらのタスクに対するビジョンモデルの価値が特定され, (3) 事前訓練されたマルチモーダル時系列言語モデルは LLM より優れているが, 改善の余地は大きい。
また、さまざまな堅牢性テストにおいて、すべてのアプローチが明らかな脆弱性を示すこともわかりました。
全体として、我々のベンチマークは時系列推論システムに必要なタスクの標準化された評価を提供する。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Deep Time Series Models: A Comprehensive Survey and Benchmark [74.28364194333447]
時系列データは、現実世界のシナリオにおいて非常に重要である。
近年、時系列コミュニティで顕著なブレークスルーが見られた。
多様な分析タスクのためのディープ時系列モデルの公正なベンチマークとして、時系列ライブラリ(TSLib)をリリースします。
論文 参考訳(メタデータ) (2024-07-18T08:31:55Z) - Advancing Time Series Classification with Multimodal Language Modeling [6.624754582682479]
InstructTimeは、時系列分類を学習から生成までのパラダイムとして再形成するための新しい試みである。
中心となる考え方は、タスク固有の命令と生の時系列の両方をマルチモーダル入力として扱うマルチモーダル理解タスクとして時系列の分類を定式化することである。
ベンチマークデータセット上で大規模な実験が行われ、その結果、InstructTimeの優れたパフォーマンスが明らかになった。
論文 参考訳(メタデータ) (2024-03-19T02:32:24Z) - UniTS: A Unified Multi-Task Time Series Model [31.675845788410246]
UniTSは、予測タスクと生成タスクを単一のフレームワークに統合した、統合されたマルチタスク時系列モデルである。
UniTSは、人間の活動センサー、ヘルスケア、エンジニアリング、ファイナンスにまたがる38のデータセットでテストされている。
論文 参考訳(メタデータ) (2024-02-29T21:25:58Z) - MOMENT: A Family of Open Time-series Foundation Models [19.0845213853369]
汎用時系列解析のためのオープンソース基盤モデルのファミリであるMOMENTを紹介する。
我々は、タイムシリーズパイル(Time series Pile)と呼ばれる公開時系列のコレクションをコンパイルし、時系列固有の課題に体系的に取り組みます。
我々は、様々なタスクやデータセットに関する時系列基礎モデルを、限られた監督設定で評価するためのベンチマークを設計するための最近の作業に基づいて構築する。
論文 参考訳(メタデータ) (2024-02-06T10:48:46Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。