論文の概要: Language Models Still Struggle to Zero-shot Reason about Time Series
- arxiv url: http://arxiv.org/abs/2404.11757v1
- Date: Wed, 17 Apr 2024 21:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:30:32.945662
- Title: Language Models Still Struggle to Zero-shot Reason about Time Series
- Title(参考訳): 言語モデルはまだ時系列に関するゼロショット推論に固執している
- Authors: Mike A. Merrill, Mingtian Tan, Vinayak Gupta, Tom Hartvigsen, Tim Althoff,
- Abstract要約: 時系列は金融や医療といった分野における意思決定に不可欠だ。
非自明な予測が言語モデルが時系列について推論できることを示すかどうかは不明である。
時系列推論のための一級評価フレームワークを生成する。
- 参考スコア(独自算出の注目度): 11.764833497297493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series are critical for decision-making in fields like finance and healthcare. Their importance has driven a recent influx of works passing time series into language models, leading to non-trivial forecasting on some datasets. But it remains unknown whether non-trivial forecasting implies that language models can reason about time series. To address this gap, we generate a first-of-its-kind evaluation framework for time series reasoning, including formal tasks and a corresponding dataset of multi-scale time series paired with text captions across ten domains. Using these data, we probe whether language models achieve three forms of reasoning: (1) Etiological Reasoning - given an input time series, can the language model identify the scenario that most likely created it? (2) Question Answering - can a language model answer factual questions about time series? (3) Context-Aided Forecasting - does highly relevant textual context improve a language model's time series forecasts? We find that otherwise highly-capable language models demonstrate surprisingly limited time series reasoning: they score marginally above random on etiological and question answering tasks (up to 30 percentage points worse than humans) and show modest success in using context to improve forecasting. These weakness showcase that time series reasoning is an impactful, yet deeply underdeveloped direction for language model research. We also make our datasets and code public at to support further research in this direction at https://github.com/behavioral-data/TSandLanguage
- Abstract(参考訳): 時系列は金融や医療といった分野における意思決定に不可欠だ。
それらの重要性は、最近の時系列を言語モデルに渡す作業の流入を招き、いくつかのデータセットでの非自明な予測につながった。
しかし、非自明な予測が言語モデルが時系列について推論できることを示すかどうかは不明である。
このギャップに対処するために、フォーマルなタスクや、10ドメインにわたるテキストキャプションと組み合わせたマルチスケール時系列のデータセットを含む、時系列推論のための第一種評価フレームワークを生成する。
これらのデータを用いて、言語モデルが3種類の推論を達成できるかどうかを調査する。(1) 階層的推論(Etiological Reasoning) - 入力時系列が与えられた場合、言語モデルはそれを最も生成しやすいシナリオを特定できるのか?
2)質問回答 - 言語モデルが時系列に関する事実質問に答えられるか?
(3) 文脈支援型予測 - 関連性の高いテキストコンテキストは、言語モデルの時系列予測を改善するか?
言語モデルでは、時間列の推論が驚くほど制限されていることが分かりました。それらは、倫理的および質問応答タスク(人間よりも最大30パーセント悪い)においてランダムにスコアを付け、予測を改善するためにコンテキストを使用することで、控えめな成功を示します。
これらの弱点は、時系列推論が言語モデル研究にとって影響があるが、深く未発達の方向であることを示している。
また、データセットとコードを公開して、この方向のさらなる研究をhttps://github.com/behavioral-data/TSandLanguageでサポートしています。
関連論文リスト
- Large language models can be zero-shot anomaly detectors for time series? [9.249657468385779]
sigllmは,大規模言語モデルを用いた時系列異常検出のためのフレームワークである。
本稿では,入力のどの要素が異常であるかを言語モデルに直接問うプロンプトベースの検出手法を提案する。
その結果, 予測手法はF1スコアに対して, 全11データセットにおいてプロンプト法よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-05-23T16:21:57Z) - A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Model [33.17908422599714]
大規模な言語基盤モデルは、クロスタスク転送性、ゼロショット/フェーショット学習、意思決定説明性といった機能を公開した。
主な研究線は2つあり、例えば、時系列のためにゼロから事前訓練された基礎モデルと、時系列のために大きな言語基盤モデルを適用することである。
本調査は,関連研究の総合的な調査を行うための3E分析フレームワークを提供する。
論文 参考訳(メタデータ) (2024-05-03T03:12:55Z) - Large Language Models Are Zero-Shot Time Series Forecasters [48.73953666153385]
時系列を数値桁の列として符号化することにより、テキストの次トーケン予測として時系列予測をフレーム化することができる。
GPT-3 や LLaMA-2 のような大規模言語モデル (LLM) は、ダウンストリームタスクでトレーニングされた目的構築された時系列モデルの性能に匹敵する、あるいはそれ以上のレベルにおいて、驚くほどゼロショット・エクスポレート・時系列を生成できる。
論文 参考訳(メタデータ) (2023-10-11T19:01:28Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T08:44:41Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文 参考訳(メタデータ) (2021-08-13T16:42:25Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - TIMEDIAL: Temporal Commonsense Reasoning in Dialog [43.24596551545824]
本稿では,対話における時間的推論能力について,事前学習した言語モデルについて検討する。
我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。
実証的な結果は、最高のパフォーマンスモデルでさえ、人間よりもこのタスクに苦労していることを示している。
論文 参考訳(メタデータ) (2021-06-08T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。