論文の概要: Byte Pair Encoding for Efficient Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2505.14411v1
- Date: Tue, 20 May 2025 14:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.351055
- Title: Byte Pair Encoding for Efficient Time Series Forecasting
- Title(参考訳): 効率的な時系列予測のためのバイトペア符号化
- Authors: Leon Götz, Marcel Kollovieh, Stephan Günnemann, Leo Schwinn,
- Abstract要約: 既存の時系列トークン化法は主に、一定の数のサンプルを個々のトークンにエンコードする。
バイトペア符号化の成功に触発されて、時系列解析のための最初のパターン中心トークン化スキームを提案する。
本手法は, 頻繁なモチーフの個別語彙に基づいて, 基本パターンをトークンにマージし, 時系列を適応的に圧縮する。
- 参考スコア(独自算出の注目度): 44.27818172708914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing time series tokenization methods predominantly encode a constant number of samples into individual tokens. This inflexible approach can generate excessive tokens for even simple patterns like extended constant values, resulting in substantial computational overhead. Inspired by the success of byte pair encoding, we propose the first pattern-centric tokenization scheme for time series analysis. Based on a discrete vocabulary of frequent motifs, our method merges samples with underlying patterns into tokens, compressing time series adaptively. Exploiting our finite set of motifs and the continuous properties of time series, we further introduce conditional decoding as a lightweight yet powerful post-hoc optimization method, which requires no gradient computation and adds no computational overhead. On recent time series foundation models, our motif-based tokenization improves forecasting performance by 36% and boosts efficiency by 1990% on average. Conditional decoding further reduces MSE by up to 44%. In an extensive analysis, we demonstrate the adaptiveness of our tokenization to diverse temporal patterns, its generalization to unseen data, and its meaningful token representations capturing distinct time series properties, including statistical moments and trends.
- Abstract(参考訳): 既存の時系列トークン化法は主に、一定の数のサンプルを個々のトークンにエンコードする。
この非フレキシブルなアプローチは、拡張された定数値のような単純なパターンに対しても過剰なトークンを生成することができ、計算オーバーヘッドがかなり大きくなる。
バイトペア符号化の成功に触発されて、時系列解析のための最初のパターン中心トークン化スキームを提案する。
本手法は, 頻繁なモチーフの個別語彙に基づいて, 基本パターンをトークンにマージし, 時系列を適応的に圧縮する。
有限組のモチーフと時系列の連続特性を出力し、より軽量で強力なポストホック最適化法として条件付きデコーディングを導入する。
近年の時系列基盤モデルでは,モチーフベースのトークン化により予測性能が36%向上し,1990年平均で効率が向上している。
条件付き復号化により、MSEは最大44%削減される。
本研究では,多種多様な時間パターンへのトークン化の適応性,未確認データへの一般化,および統計的モーメントや傾向を含む時系列特性の異なる意味的トークン表現について述べる。
関連論文リスト
- Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - TOKON: TOKenization-Optimized Normalization for time series analysis with a large language model [0.0]
本稿ではトークン化の本質的性質を考慮した新しい正規化手法を提案する。
提案したTokenization-d Normalization(TOKON)は,各要素を単一トークンで表現することで時系列データを単純化する。
また, 時系列予測のための新しいプロンプト, Time Series Forecasting with Care (TFSC) を導入し, 予測性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-02-08T21:42:14Z) - Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - Timer-XL: Long-Context Transformers for Unified Time Series Forecasting [67.83502953961505]
我々は時系列の統一予測のための因果変換器Timer-XLを提案する。
大規模な事前トレーニングに基づいて、Timer-XLは最先端のゼロショット性能を達成する。
論文 参考訳(メタデータ) (2024-10-07T07:27:39Z) - Large Language Models Are Zero-Shot Time Series Forecasters [48.73953666153385]
時系列を数値桁の列として符号化することにより、テキストの次トーケン予測として時系列予測をフレーム化することができる。
GPT-3 や LLaMA-2 のような大規模言語モデル (LLM) は、ダウンストリームタスクでトレーニングされた目的構築された時系列モデルの性能に匹敵する、あるいはそれ以上のレベルにおいて、驚くほどゼロショット・エクスポレート・時系列を生成できる。
論文 参考訳(メタデータ) (2023-10-11T19:01:28Z) - Efficient Sampling Algorithms for Approximate Temporal Motif Counting
(Extended Version) [24.33313864327473]
時間的モチーフのインスタンス数を推定する汎用エッジサンプリング(ES)アルゴリズムを提案する。
また、エッジサンプリングとウェッジサンプリングを併用した改良されたEWSアルゴリズムを考案し、3頂点と3エッジの時間的モチーフをカウントする。
我々のアルゴリズムは、時間的モチーフカウントのための最先端サンプリング手法よりも効率が高く、精度が高く、スケーラビリティが高い。
論文 参考訳(メタデータ) (2020-07-28T07:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。