論文の概要: Temporal Tokenization Strategies for Event Sequence Modeling with Large Language Models
- arxiv url: http://arxiv.org/abs/2512.13618v1
- Date: Mon, 15 Dec 2025 18:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.797777
- Title: Temporal Tokenization Strategies for Event Sequence Modeling with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたイベントシーケンスモデリングのための時間的トークン化手法
- Authors: Zefang Liu, Nam Nguyen, Yinzhu Quan, Austin Zhang,
- Abstract要約: 本稿では,イベントシーケンスの時間的トークン化に関する最初の実証的研究について述べる。
我々は,素数列,高精度バイトレベル表現,人文カレンダートークン,古典的均一化,適応的残留スカラー量子化など,異なる符号化戦略を比較した。
我々の分析は、単一の戦略が普遍的に優れているわけではないことを明らかにしている。代わりに、予測性能は、トークン化器とデータの統計特性の整合性に大きく依存する。
- 参考スコア(独自算出の注目度): 3.051255234209201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representing continuous time is a critical and under-explored challenge in modeling temporal event sequences with large language models (LLMs). Various strategies like byte-level representations or calendar tokens have been proposed. However, the optimal approach remains unclear, especially given the diverse statistical distributions of real-world event data, which range from smooth log-normal to discrete, spiky patterns. This paper presents the first empirical study of temporal tokenization for event sequences, comparing distinct encoding strategies: naive numeric strings, high-precision byte-level representations, human-semantic calendar tokens, classic uniform binning, and adaptive residual scalar quantization. We evaluate these strategies by fine-tuning LLMs on real-world datasets that exemplify these diverse distributions. Our analysis reveals that no single strategy is universally superior; instead, prediction performance depends heavily on aligning the tokenizer with the data's statistical properties, with log-based strategies excelling on skewed distributions and human-centric formats proving robust for mixed modalities.
- Abstract(参考訳): 連続時間を表現することは、大きな言語モデル(LLM)で時間的イベントシーケンスをモデル化する上で、重要かつ未探索の課題である。
バイトレベルの表現やカレンダートークンといった様々な戦略が提案されている。
しかし、特に、スムーズなログ正規から離散的なスパイクパターンまで、現実世界の事象データの多様な統計分布を考えると、最適アプローチはいまだに不明である。
本稿では, 事象列の時間的トークン化に関する最初の実証的研究を行い, 単純数値列, 高精度バイトレベル表現, 人文カレンダートークン, 古典的均一化, 適応的残留スカラー量子化など, 異なる符号化戦略を比較した。
我々は、これらの多様な分布を実証する実世界のデータセット上で、LSMを微調整することで、これらの戦略を評価する。
我々の分析では、単一の戦略が普遍的に優れているわけではなく、代わりに、予測性能はトークン化器とデータの統計特性の整合性に大きく依存している。
関連論文リスト
- BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models [47.66064662912721]
本稿では,バランスの取れたサンプリング戦略を通じて,データの多様性を高めるための新しい事前学習コーパスを提案する。
BLTは、公開データセットからの321億の観測を取り入れ、時系列パターンを特徴付けるために、包括的な統計メトリクススイートを使用している。
本研究は, 予測タスクにおけるトレーニング効率とモデル性能の両面において, データの多様性が重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2025-05-23T13:20:47Z) - Bridging Distribution Gaps in Time Series Foundation Model Pretraining with Prototype-Guided Normalization [29.082583523943157]
本稿では,Transformerアーキテクチャ内でのドメイン対応適応正規化戦略を提案する。
従来のLayerNormをプロトタイプ誘導動的正規化機構(ProtoNorm)に置き換える。
本手法は,従来の事前学習手法よりも,分類タスクと予測タスクの両方において優れていた。
論文 参考訳(メタデータ) (2025-04-15T06:23:00Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Continuous-time convolutions model of event sequences [46.3471121117337]
イベントシーケンスは不均一でスパースであり、従来のモデルは不適当である。
我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。
COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Hierarchical regularization networks for sparsification based learning
on noisy datasets [0.0]
階層は、連続的により微細なスケールで特定される近似空間から従う。
各スケールでのモデル一般化を促進するため,複数次元にわたる新規な射影型ペナルティ演算子も導入する。
その結果、合成データセットと実データセットの両方において、データ削減およびモデリング戦略としてのアプローチの性能が示された。
論文 参考訳(メタデータ) (2020-06-09T18:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。