論文の概要: Small Vocabularies, Big Gains: Pretraining and Tokenization in Time Series Models
- arxiv url: http://arxiv.org/abs/2511.11622v1
- Date: Thu, 06 Nov 2025 20:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.307249
- Title: Small Vocabularies, Big Gains: Pretraining and Tokenization in Time Series Models
- Title(参考訳): 小さな語彙と大きな利得:時系列モデルにおける事前学習とトークン化
- Authors: Alexis Roger, Gwen Legate, Kashif Rasul, Yuriy Nevmyvaka, Irina Rish,
- Abstract要約: トークン化器の構成がモデルの表現能力と安定性を制御していることを示す。
事前訓練されたモデルは、よく設計されたトークン化器をより効果的に活用できることを実証する。
不正なトークン化は 事前訓練の利点を減らしたり 逆にしたりします
- 参考スコア(独自算出の注目度): 20.41613649587587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization and transfer learning are two critical components in building state of the art time series foundation models for forecasting. In this work, we systematically study the effect of tokenizer design, specifically scaling and quantization strategies, on model performance, alongside the impact of pretraining versus random initialization. We show that tokenizer configuration primarily governs the representational capacity and stability of the model, while transfer learning influences optimization efficiency and alignment. Using a combination of empirical training experiments and theoretical analyses, we demonstrate that pretrained models consistently leverage well-designed tokenizers more effectively, particularly at smaller vocabulary sizes. Conversely, misaligned tokenization can diminish or even invert the benefits of pretraining. These findings highlight the importance of careful tokenization in time series modeling and suggest that combining small, efficient vocabularies with pretrained weights is especially advantageous in multi-modal forecasting settings, where the overall vocabulary must be shared across modalities. Our results provide concrete guidance for designing tokenizers and leveraging transfer learning in discrete representation learning for continuous signals.
- Abstract(参考訳): トークン化と転送学習は、予測のための最先端の時系列基盤モデルを構築する上で2つの重要な要素である。
本研究では,トークン化設計,特にスケーリングと量子化戦略が,事前学習とランダム初期化の影響とともにモデル性能に及ぼす影響を系統的に研究する。
本稿では、トークン化器の構成がモデルの表現能力と安定性を主に支配し、転送学習は最適化効率とアライメントに影響を与えることを示す。
経験的学習実験と理論解析の組み合わせを用いて、事前学習されたモデルは、特により小さな語彙サイズにおいて、より効果的に、よりよく設計されたトークン化剤を一貫して活用することを実証した。
逆に、不正なトークン化は事前トレーニングの利点を減らしたり、逆にすることもある。
これらの知見は時系列モデリングにおける注意的トークン化の重要性を強調し、特にマルチモーダルな予測設定において、小型で効率的な語彙と事前訓練された重みを組み合わせれば、全体的な語彙をモダリティ間で共有する必要があることを示唆している。
本研究は,トークン化器の設計と連続信号の離散表現学習における伝達学習の活用に関する具体的なガイダンスを提供する。
関連論文リスト
- The Art of Breaking Words: Rethinking Multilingual Tokenizer Design [21.9940001977516]
既存のトークン化器は高いトークン対ワード比、文脈長の非効率な使用、推論の遅さを示す。
本稿では,語彙サイズ,事前トークン化規則,トレーニングコーパス構成をトークン・ツー・ワード効率とモデル品質の両方に関連付ける体系的な研究を提案する。
我々のトークンライザは、最先端の多言語インデックスモデルに対して平均トークン対ワード比を40%以上改善する。
論文 参考訳(メタデータ) (2025-08-03T15:31:10Z) - DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。
まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。
その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Scaling LLM Pre-training with Vocabulary Curriculum [0.0]
本稿では,語彙サイズに対して,対数線形スケーリングゲインによる事前学習効率を向上させる手法である語彙カリキュラム学習を導入する。
提案手法は,エントロピー誘導語彙拡張とモデル最適化を交互に行い,多様なトークン化粒度にまたがる変換可能な表現を学習する。
小規模GPTモデルによる実験により,スケーリング効率が向上し,動的トークン化の有効性が向上した。
論文 参考訳(メタデータ) (2025-02-25T07:18:29Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。