論文の概要: BEDTime: A Unified Benchmark for Automatically Describing Time Series
- arxiv url: http://arxiv.org/abs/2509.05215v2
- Date: Tue, 30 Sep 2025 03:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 19:34:21.429436
- Title: BEDTime: A Unified Benchmark for Automatically Describing Time Series
- Title(参考訳): BEDTime: 時系列の自動記述のための統一ベンチマーク
- Authors: Medhasweta Sen, Zachary Gottesman, Jiaxing Qiu, C. Bayan Bruss, Nam Nguyen, Tom Hartvigsen,
- Abstract要約: 我々は、成功したマルチモーダルモデルは時系列の言語記述を認識し、区別し、生成することができるべきだと論じる。
次に、各タスクのモデルを評価する最初のベンチマークデータセットであるBEDTimeを作成します。
BEDTimeを用いて、13の最先端モデルを評価し、専用時系列基礎モデルの性能が著しく低下していることを見出した。
- 参考スコア(独自算出の注目度): 8.466823017204641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works propose complex multi-modal models that handle both time series and language, ultimately claiming high performance on complex tasks like time series reasoning and cross-modal question-answering. However, they skip evaluations of simple and important foundational tasks, which complex models should reliably master. They also lack direct, head-to-head comparisons with other popular approaches. So we ask a simple question: Can recent models even produce generic visual descriptions of time series data? In response, we propose three new tasks, posing that successful multi-modal models should be able to recognize, differentiate, and generate language descriptions of time series. We then create BEDTime, the first benchmark dataset to assess models on each task, comprising four datasets reformatted for these tasks across multiple modalities. Using BEDTime, we evaluate 13 state-of-the-art models, and find that (1) surprisingly, dedicated time series foundation models severely underperform, despite being designed for similar tasks, (2) vision-language models are quite capable, (3) language-only methods perform worst, despite many lauding their potential, and (4) all approaches are clearly fragile to a range of realistic robustness tests, indicating avenues for future work.
- Abstract(参考訳): 最近の研究は、時系列と言語の両方を扱う複雑なマルチモーダルモデルを提案し、最終的に時系列推論やクロスモーダル質問応答のような複雑なタスクにおいて高い性能を主張している。
しかし、それらは単純で重要な基礎的なタスクの評価を省略し、複雑なモデルは確実にマスターすべきである。
また、他の一般的なアプローチと直接的・直接的に比較することができない。
最近のモデルでは、時系列データの一般的な視覚的記述も生成できますか?
そこで本研究では,時系列の言語記述を認識・識別・生成可能なマルチモーダルモデルを提案する。
次に、各タスクのモデルを評価する最初のベンチマークデータセットであるBEDTimeを作成します。
BEDTimeを用いて13の最先端モデルを評価し,(1)類似タスク用に設計されているにもかかわらず,驚くほど高度に性能の低い時系列基礎モデル,(2)視覚言語モデルは非常に有能なこと,(3)言語のみの手法が有能であること,(4)全てのアプローチが明らかに現実的な堅牢性テストに対して脆弱であること,そして今後の作業の道筋を示すことを見出した。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Deep Time Series Models: A Comprehensive Survey and Benchmark [74.28364194333447]
時系列データは、現実世界のシナリオにおいて非常に重要である。
近年、時系列コミュニティで顕著なブレークスルーが見られた。
多様な分析タスクのためのディープ時系列モデルの公正なベンチマークとして、時系列ライブラリ(TSLib)をリリースします。
論文 参考訳(メタデータ) (2024-07-18T08:31:55Z) - Advancing Time Series Classification with Multimodal Language Modeling [6.624754582682479]
InstructTimeは、時系列分類を学習から生成までのパラダイムとして再形成するための新しい試みである。
中心となる考え方は、タスク固有の命令と生の時系列の両方をマルチモーダル入力として扱うマルチモーダル理解タスクとして時系列の分類を定式化することである。
ベンチマークデータセット上で大規模な実験が行われ、その結果、InstructTimeの優れたパフォーマンスが明らかになった。
論文 参考訳(メタデータ) (2024-03-19T02:32:24Z) - UniTS: A Unified Multi-Task Time Series Model [31.675845788410246]
UniTSは、予測タスクと生成タスクを単一のフレームワークに統合した、統合されたマルチタスク時系列モデルである。
UniTSは、人間の活動センサー、ヘルスケア、エンジニアリング、ファイナンスにまたがる38のデータセットでテストされている。
論文 参考訳(メタデータ) (2024-02-29T21:25:58Z) - MOMENT: A Family of Open Time-series Foundation Models [19.0845213853369]
汎用時系列解析のためのオープンソース基盤モデルのファミリであるMOMENTを紹介する。
我々は、タイムシリーズパイル(Time series Pile)と呼ばれる公開時系列のコレクションをコンパイルし、時系列固有の課題に体系的に取り組みます。
我々は、様々なタスクやデータセットに関する時系列基礎モデルを、限られた監督設定で評価するためのベンチマークを設計するための最近の作業に基づいて構築する。
論文 参考訳(メタデータ) (2024-02-06T10:48:46Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。