論文の概要: Random Initialization Can't Catch Up: The Advantage of Language Model Transfer for Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2506.21570v1
- Date: Thu, 12 Jun 2025 18:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.282435
- Title: Random Initialization Can't Catch Up: The Advantage of Language Model Transfer for Time Series Forecasting
- Title(参考訳): ランダム初期化はキャッチアップできない: 時系列予測のための言語モデル転送の利点
- Authors: Roland Riachi, Kashif Rasul, Arjun Ashok, Prateek Humane, Alexis Roger, Andrew R. Williams, Yuriy Nevmyvaka, Irina Rish,
- Abstract要約: 最近の研究は、低データ体制における時系列予測に事前学習言語モデル(LM)を適用することの有効性を実証している。
本研究は,言語モデルから時系列予測への効果的な移行を,様々な設計選択の下で分析することによって,これらの知見を裏付けるものである。
- 参考スコア(独自算出の注目度): 12.230245646429324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have demonstrated the effectiveness of adapting pre-trained language models (LMs) for forecasting time series in the low-data regime. We build upon these findings by analyzing the effective transfer from language models to time series forecasting under various design choices including upstream post-training, time series tokenizer and language backbone size. In the low-data regime, these design choices have a significant impact on the validation loss, with clear-cut choices that outperform others. Contrary to Hernandez et al. (2021), we observe that the validation loss of the LMs continues to smoothly decrease long after the validation loss of the randomly initialized models has converged, leading to a non-vanishing transfer gap that holds across design choices. These findings not only help shed light on the effective use of compute-efficient training for time series, but also open the way for the study of modality-agnostic properties of data distributions leveraged by these models.
- Abstract(参考訳): 最近の研究は、低データ体制における時系列予測に事前学習言語モデル(LM)を適用することの有効性を実証している。
本研究では,言語モデルから時系列予測への効果的な移行を,アップストリーム後トレーニング,時系列トークン化,言語バックボーンサイズなど,様々な設計選択の下で分析することによって,これらの知見を導出する。
低データ体制では、これらの設計選択はバリデーションの損失に大きな影響を与え、明確な選択は他よりも優れています。
Hernandez et al (2021) と対照的に、ランダムに初期化されたモデルの検証損失が収束した後も、LMの検証損失は滑らかに減少し続けており、設計選択にまたがる非消滅的な転送ギャップが生じる。
これらの発見は、時系列に対する計算効率のトレーニングを効果的に活用するだけでなく、これらのモデルによって活用されるデータ分布のモダリティ非依存性の研究の道を開いた。
関連論文リスト
- Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [32.04523360747506]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - A Systematic Evaluation of Generated Time Series and Their Effects in Self-Supervised Pretraining [34.99623416888207]
自己教師付き事前訓練モデル(PTM)は、コンピュータビジョンと自然言語処理タスクにおいて顕著な性能を示した。
実験では、ほとんどの自己教師付き時系列PTMは、単純な教師付きモデルによって超えられた。
以上の結果から,実データ事前学習セットを大量のサンプルのみに置き換えることで,顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-08-15T00:53:09Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Understanding the Role of Textual Prompts in LLM for Time Series Forecasting: an Adapter View [21.710722062737577]
大規模言語モデル(LLM)の急成長する領域では、時系列予測にLLMを適用することへの関心が高まっている。
本研究の目的は,LLMへのテキストプロンプトの統合が時系列の予測精度を効果的に向上させる方法と理由を理解することである。
論文 参考訳(メタデータ) (2023-11-24T16:32:47Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - One Fits All:Power General Time Series Analysis by Pretrained LM [23.292260325891032]
自然言語や画像の事前学習モデルでは,すべてのメイン時系列解析タスクにおいて,同等あるいは最先端のパフォーマンスが得られることを示す。
この結果から,自然言語や画像を用いた事前学習モデルでは,すべての時系列解析タスクにおいて,同等あるいは最先端のパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2023-02-23T11:37:39Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。