論文の概要: CaTS-Bench: Can Language Models Describe Numeric Time Series?
- arxiv url: http://arxiv.org/abs/2509.20823v1
- Date: Thu, 25 Sep 2025 07:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.745097
- Title: CaTS-Bench: Can Language Models Describe Numeric Time Series?
- Title(参考訳): CaTS-Bench: 言語モデルは数値時系列を記述することができるか?
- Authors: Luca Zhou, Pratham Yashwante, Marshall Fisher, Alessio Sampieri, Zihao Zhou, Fabio Galasso, Rose Yu,
- Abstract要約: CaTS-Benchは、コンテキスト対応の時系列キャプションのための、最初の大規模な実世界のベンチマークである。
CaTS-Benchは、約465kのトレーニングと105kのテストタイムスタンプを含む11の多様なデータセットから派生している。
この作業の重要な貢献は、参照キャプションを生成するために使用されるスケーラブルなパイプラインである。
- 参考スコア(独自算出の注目度): 36.95070294204846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series captioning, the task of describing numeric time series in natural language, requires numerical reasoning, trend interpretation, and contextual understanding. Existing benchmarks, however, often rely on synthetic data or overly simplistic captions, and typically neglect metadata and visual representations. To close this gap, we introduce CaTS-Bench, the first large-scale, real-world benchmark for Context-aware Time Series captioning. CaTS-Bench is derived from 11 diverse datasets reframed as captioning and Q&A tasks, comprising roughly 465k training and 105k test timestamps. Each sample includes a numeric series segment, contextual metadata, a line-chart image, and a caption. A key contribution of this work is the scalable pipeline used to generate reference captions: while most references are produced by an oracle LLM and verified through factual checks, human indistinguishability studies, and diversity analyses, we also provide a human-revisited subset of 579 test captions, refined from LLM outputs to ensure accuracy and human-like style. Beyond captioning, CaTS-Bench offers 460 multiple-choice questions targeting deeper aspects of time series reasoning. We further propose new tailored evaluation metrics and benchmark leading VLMs, highlighting both their strengths and persistent limitations. Together, these contributions establish CaTS-Bench and its captioning pipeline as a reliable and extensible foundation for future research at the intersection of time series analysis and foundation models.
- Abstract(参考訳): 時系列キャプションは、自然言語で数値時系列を記述するタスクであり、数値推論、傾向解釈、文脈理解を必要とする。
しかし、既存のベンチマークは、しばしば合成データや過度に単純化されたキャプションに依存し、メタデータや視覚表現を無視する。
このギャップを埋めるために、私たちは、コンテキスト対応の時系列キャプションのための最初の大規模な実世界のベンチマークであるCaTS-Benchを紹介します。
CaTS-Benchは、約465kのトレーニングと105kのテストタイムスタンプを含む、キャプションとQ&Aタスクとして再構成された11の多様なデータセットから派生している。
各サンプルは、数値系列セグメント、文脈メタデータ、ラインチャート画像、キャプションを含む。
この研究の重要な貢献は、参照キャプションを生成するためのスケーラブルなパイプラインである。ほとんどの参照は、オラクルのLLMによって作成され、事実チェック、人間の不明瞭性の研究、多様性分析を通じて検証されるが、我々は、LLM出力から洗練され、精度と人間的なスタイルを保証するために、579個のテストキャプションの人為的なサブセットも提供する。
CaTS-Benchはキャプション以外にも、時系列推論のより深い側面をターゲットとした460の多重選択質問を提供している。
さらに、VLMをリードする評価指標とベンチマークを新たに提案し、その長所と持続的制約の両方を強調した。
これらの貢献により、CaTS-Benchとそのキャプションパイプラインは、時系列分析と基礎モデルの交差における将来の研究の信頼性と拡張性の基礎として確立される。
関連論文リスト
- SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding [38.40471808648207]
SeriesBenchは、105の慎重にキュレートされた物語駆動のシリーズからなるベンチマークである。
本稿では,新しい長文物語アノテーション手法とフルインフォーム・トランスフォーメーション・アプローチを提案する。
シリーズ内のプロット構造とキャラクタ関係を詳細に分析するためのモデルキャパシティをさらに向上するために,新しい物語推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-30T08:48:21Z) - Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data [22.274663165215237]
時系列分析は、医療、金融、交通、エネルギーなど幅広い分野において重要である。
現在の時系列モデルは、時系列とテキストコンテンツの両方を含む推論を行う能力に制限がある。
Chat-TSは時系列トークンをLLMの語彙に統合し、両方のモダリティに対する推論能力を高める。
論文 参考訳(メタデータ) (2025-03-13T21:05:11Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative [65.84249211767921]
テキスト・アズ・タイム・シリーズ(TaTS)は、既存の数値のみの時系列モデルにプラグインできる。
TaTSはモデルアーキテクチャを変更することなく予測性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-02-13T03:43:27Z) - Time Series Language Model for Descriptive Caption Generation [11.796431549951055]
本稿では,時系列キャプションに特化して設計された新しい時系列言語モデルTSLMを紹介する。
TSLMはエンコーダ・デコーダモデルとして機能し、テキストプロンプトと時系列データ表現の両方を活用する。
TSLMは、複数のデータモダリティから既存の最先端アプローチよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2025-01-03T14:34:30Z) - ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning [10.854285913078257]
本稿では,時系列解析用に設計された新しいMLLMであるChatTSを紹介する。
ChatTSは、視覚MLLMが画像を処理する方法と同様、時系列をモダリティとして扱う。
Time Series Evol-Instructは様々な時系列Q&Aを生成し、モデルの推論能力を高めます。
論文 参考訳(メタデータ) (2024-12-04T08:06:15Z) - Large Language Models Are Zero-Shot Time Series Forecasters [48.73953666153385]
時系列を数値桁の列として符号化することにより、テキストの次トーケン予測として時系列予測をフレーム化することができる。
GPT-3 や LLaMA-2 のような大規模言語モデル (LLM) は、ダウンストリームタスクでトレーニングされた目的構築された時系列モデルの性能に匹敵する、あるいはそれ以上のレベルにおいて、驚くほどゼロショット・エクスポレート・時系列を生成できる。
論文 参考訳(メタデータ) (2023-10-11T19:01:28Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。