論文の概要: LiPCoT: Linear Predictive Coding based Tokenizer for Self-supervised Learning of Time Series Data via Language Models
- arxiv url: http://arxiv.org/abs/2408.07292v1
- Date: Wed, 14 Aug 2024 04:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:13:57.315156
- Title: LiPCoT: Linear Predictive Coding based Tokenizer for Self-supervised Learning of Time Series Data via Language Models
- Title(参考訳): LiPCoT:言語モデルによる時系列データの自己教師付き学習のための線形予測符号化に基づくトケナイザ
- Authors: Md Fahim Anjum,
- Abstract要約: 本稿では,時系列データをトークン列にエンコードする新しいトークン化器LiPCoTを提案する。
特に、LiPCoTを用いて、脳波データをトークンの小さな語彙にエンコードし、自己教師型学習にBERTを使用する。
その結果, 自己教師付き学習を用いたBERTモデルは, 既存手法の精度を7.1%向上させることができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have achieved remarkable success in various natural language processing tasks. However, their application to time series data, a crucial component in many domains, remains limited. This paper proposes LiPCoT (Linear Predictive Coding based Tokenizer for time series), a novel tokenizer that encodes time series data into a sequence of tokens, enabling self-supervised learning of time series using existing Language model architectures such as BERT. Unlike traditional time series tokenizers that rely heavily on CNN encoder for time series feature generation, LiPCoT employs stochastic modeling through linear predictive coding to create a latent space for time series providing a compact yet rich representation of the inherent stochastic nature of the data. Furthermore, LiPCoT is computationally efficient and can effectively handle time series data with varying sampling rates and lengths, overcoming common limitations of existing time series tokenizers. In this proof-of-concept work, we present the effectiveness of LiPCoT in classifying Parkinson's disease (PD) using an EEG dataset from 46 participants. In particular, we utilize LiPCoT to encode EEG data into a small vocabulary of tokens and then use BERT for self-supervised learning and the downstream task of PD classification. We benchmark our approach against several state-of-the-art CNN-based deep learning architectures for PD detection. Our results reveal that BERT models utilizing self-supervised learning outperformed the best-performing existing method by 7.1% in precision, 2.3% in recall, 5.5% in accuracy, 4% in AUC, and 5% in F1-score highlighting the potential for self-supervised learning even on small datasets. Our work will inform future foundational models for time series, particularly for self-supervised learning.
- Abstract(参考訳): 言語モデルは様々な自然言語処理タスクにおいて顕著な成功を収めた。
しかし、多くの領域において重要なコンポーネントである時系列データへのそれらの適用は、依然として限られている。
本稿では,時系列データを一連のトークンにエンコードし,BERTなどの既存の言語モデルアーキテクチャを用いて時系列の自己教師型学習を可能にする新しいトークンであるLiPCoT(Linear Predictive Coding based Tokenizer for Time series)を提案する。
時系列特徴生成のためにCNNエンコーダに大きく依存する伝統的な時系列トークンとは異なり、LiPCoTは線形予測符号化による確率的モデリングを用いて、データ固有の確率的性質のコンパクトでリッチな表現を提供する時系列の潜在空間を作成する。
さらに、LiPCoTは計算効率が良く、サンプリングレートや長さの異なる時系列データを効果的に処理でき、既存の時系列トークンの共通的な制限を克服できる。
本研究は,パーキンソン病(PD)の分類におけるLiPCoTの有効性を示す。
特に、LiPCoTを用いて、脳波データをトークンの小さな語彙にエンコードし、自己教師付き学習やPD分類の下流タスクにBERTを使用する。
我々は、PD検出のための最先端CNNベースのディープラーニングアーキテクチャに対して、我々のアプローチをベンチマークする。
その結果,自己教師あり学習を用いたBERTモデルは,精度7.1%,リコール2.3%,精度5.5%,AUC4%,F1スコア5%で,自己教師あり学習の可能性を強調した。
我々の研究は、今後の時系列の基礎モデル、特に自己教師型学習に役立ちます。
関連論文リスト
- Large Language Models are Few-shot Multivariate Time Series Classifiers [23.045734479292356]
大規模言語モデル (LLM) は時系列解析に広く応用されている。
しかし、数発の分類(すなわち重要な訓練シナリオ)におけるそれらの実用性は過小評価されている。
データ不足を克服するために,LLMの学習済み知識を幅広く活用することを目的としている。
論文 参考訳(メタデータ) (2025-01-30T03:59:59Z) - Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - Chronos: Learning the Language of Time Series [79.38691251254173]
Chronosは事前訓練された確率的時系列モデルのためのフレームワークである。
クロノスモデルでは,様々な領域の時系列データを利用して,未知の予測タスクにおけるゼロショット精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:53:54Z) - Large Language Models Are Zero-Shot Time Series Forecasters [48.73953666153385]
時系列を数値桁の列として符号化することにより、テキストの次トーケン予測として時系列予測をフレーム化することができる。
GPT-3 や LLaMA-2 のような大規模言語モデル (LLM) は、ダウンストリームタスクでトレーニングされた目的構築された時系列モデルの性能に匹敵する、あるいはそれ以上のレベルにおいて、驚くほどゼロショット・エクスポレート・時系列を生成できる。
論文 参考訳(メタデータ) (2023-10-11T19:01:28Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。