論文の概要: LiPCoT: Linear Predictive Coding based Tokenizer for Self-supervised Learning of Time Series Data via Language Models
- arxiv url: http://arxiv.org/abs/2408.07292v1
- Date: Wed, 14 Aug 2024 04:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:13:57.315156
- Title: LiPCoT: Linear Predictive Coding based Tokenizer for Self-supervised Learning of Time Series Data via Language Models
- Title(参考訳): LiPCoT:言語モデルによる時系列データの自己教師付き学習のための線形予測符号化に基づくトケナイザ
- Authors: Md Fahim Anjum,
- Abstract要約: 本稿では,時系列データをトークン列にエンコードする新しいトークン化器LiPCoTを提案する。
特に、LiPCoTを用いて、脳波データをトークンの小さな語彙にエンコードし、自己教師型学習にBERTを使用する。
その結果, 自己教師付き学習を用いたBERTモデルは, 既存手法の精度を7.1%向上させることができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have achieved remarkable success in various natural language processing tasks. However, their application to time series data, a crucial component in many domains, remains limited. This paper proposes LiPCoT (Linear Predictive Coding based Tokenizer for time series), a novel tokenizer that encodes time series data into a sequence of tokens, enabling self-supervised learning of time series using existing Language model architectures such as BERT. Unlike traditional time series tokenizers that rely heavily on CNN encoder for time series feature generation, LiPCoT employs stochastic modeling through linear predictive coding to create a latent space for time series providing a compact yet rich representation of the inherent stochastic nature of the data. Furthermore, LiPCoT is computationally efficient and can effectively handle time series data with varying sampling rates and lengths, overcoming common limitations of existing time series tokenizers. In this proof-of-concept work, we present the effectiveness of LiPCoT in classifying Parkinson's disease (PD) using an EEG dataset from 46 participants. In particular, we utilize LiPCoT to encode EEG data into a small vocabulary of tokens and then use BERT for self-supervised learning and the downstream task of PD classification. We benchmark our approach against several state-of-the-art CNN-based deep learning architectures for PD detection. Our results reveal that BERT models utilizing self-supervised learning outperformed the best-performing existing method by 7.1% in precision, 2.3% in recall, 5.5% in accuracy, 4% in AUC, and 5% in F1-score highlighting the potential for self-supervised learning even on small datasets. Our work will inform future foundational models for time series, particularly for self-supervised learning.
- Abstract(参考訳): 言語モデルは様々な自然言語処理タスクにおいて顕著な成功を収めた。
しかし、多くの領域において重要なコンポーネントである時系列データへのそれらの適用は、依然として限られている。
本稿では,時系列データを一連のトークンにエンコードし,BERTなどの既存の言語モデルアーキテクチャを用いて時系列の自己教師型学習を可能にする新しいトークンであるLiPCoT(Linear Predictive Coding based Tokenizer for Time series)を提案する。
時系列特徴生成のためにCNNエンコーダに大きく依存する伝統的な時系列トークンとは異なり、LiPCoTは線形予測符号化による確率的モデリングを用いて、データ固有の確率的性質のコンパクトでリッチな表現を提供する時系列の潜在空間を作成する。
さらに、LiPCoTは計算効率が良く、サンプリングレートや長さの異なる時系列データを効果的に処理でき、既存の時系列トークンの共通的な制限を克服できる。
本研究は,パーキンソン病(PD)の分類におけるLiPCoTの有効性を示す。
特に、LiPCoTを用いて、脳波データをトークンの小さな語彙にエンコードし、自己教師付き学習やPD分類の下流タスクにBERTを使用する。
我々は、PD検出のための最先端CNNベースのディープラーニングアーキテクチャに対して、我々のアプローチをベンチマークする。
その結果,自己教師あり学習を用いたBERTモデルは,精度7.1%,リコール2.3%,精度5.5%,AUC4%,F1スコア5%で,自己教師あり学習の可能性を強調した。
我々の研究は、今後の時系列の基礎モデル、特に自己教師型学習に役立ちます。
関連論文リスト
- LETS-C: Leveraging Language Embedding for Time Series Classification [15.520883566827608]
本稿では,時系列領域における言語モデリングの成功を活用するための代替手法を提案する。
言語埋め込みモデルを用いて時系列を埋め込み、その埋め込みを畳み込みニューラルネットワーク(CNN)と多層パーセプトロン(MLP)からなる単純な分類ヘッドと組み合わせる。
この結果から,言語エンコーダを用いて時系列データを埋め込むことで,高速な時系列分類を実現する上で有望な方向性が示唆された。
論文 参考訳(メタデータ) (2024-07-09T04:07:57Z) - Chronos: Learning the Language of Time Series [79.38691251254173]
Chronosは事前訓練された確率的時系列モデルのためのフレームワークである。
クロノスモデルでは,様々な領域の時系列データを利用して,未知の予測タスクにおけるゼロショット精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:53:54Z) - Large Language Models Are Zero-Shot Time Series Forecasters [48.73953666153385]
時系列を数値桁の列として符号化することにより、テキストの次トーケン予測として時系列予測をフレーム化することができる。
GPT-3 や LLaMA-2 のような大規模言語モデル (LLM) は、ダウンストリームタスクでトレーニングされた目的構築された時系列モデルの性能に匹敵する、あるいはそれ以上のレベルにおいて、驚くほどゼロショット・エクスポレート・時系列を生成できる。
論文 参考訳(メタデータ) (2023-10-11T19:01:28Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Pre-trained Language Model with Prompts for Temporal Knowledge Graph
Completion [30.50032335014021]
我々は、新しいTKGCモデル、すなわち、TKGC(PPT)のための Prompts 付き事前学習言語モデルを提案する。
サンプルの四重項を事前訓練した言語モデル入力に変換し、タイムスタンプ間の間隔を異なるプロンプトに変換することで、暗黙的な意味情報を持つ一貫性のある文を生成する。
我々のモデルは、時間的知識グラフからの情報を言語モデルに効果的に組み込むことができる。
論文 参考訳(メタデータ) (2023-05-13T12:53:11Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。