論文の概要: Understanding Data Temporality Impact on Large Language Models Pre-training
- arxiv url: http://arxiv.org/abs/2605.22769v1
- Date: Thu, 21 May 2026 17:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.377641
- Title: Understanding Data Temporality Impact on Large Language Models Pre-training
- Title(参考訳): 大規模言語モデルの事前学習におけるデータテンポラリティの影響の理解
- Authors: Pilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard,
- Abstract要約: 大型言語モデル(LLM)は一般にシャッフルコーパスで訓練される。
本研究では,事前学習のダイナミクスが時間に敏感な事実知識の獲得に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are typically trained on shuffled corpora, yielding models whose knowledge is frozen at train time and whose temporal grounding remains poorly understood. In this work, we study the impact of pre-training dynamics on the acquisition of time-sensitive factual knowledge, focusing specifically on data ordering. Our main contributions are twofold. First, we introduce a comprehensive benchmark of over 7,000 temporally grounded questions and an evaluation protocol that enables analysis of whether models correctly associate facts with their corresponding time periods. Second, we pretrain 6B-parameter models on temporally ordered Common Crawl snapshots and compare them against standard shuffled pre-training. Our results show that sequentially trained models match shuffled baselines on general language understanding and common knowledge while consistently exhibiting more up-to-date and temporally precise knowledge. Temporally ordered pre-training yields improved factual freshness, while shuffled pre-training peaks on older data, possibly due to increased factual repetition. These findings, along with the release of our code at https://github.com/kyutai-labs/kairos , checkpoints, and datasets at https://huggingface.co/collections/kyutai/kairos provide a foundation for future research on continual learning for LLMs.
- Abstract(参考訳): 大型言語モデル(LLM)は、通常、シャッフルされたコーパスで訓練され、列車時に知識が凍結され、時間的接地が不十分なモデルを生成する。
本研究では,事前学習のダイナミクスが時間に敏感な事実知識の獲得に与える影響について検討し,特にデータ順序付けに着目した。
私たちの主な貢献は2倍です。
まず、7000以上の時間的根拠を持つ質問の総合ベンチマークと、モデルが事実と対応する期間を正しく関連付けているかどうかを解析できる評価プロトコルを導入する。
第2に、時間順のCommon Crawlスナップショット上で6Bパラメータモデルを事前トレーニングし、標準シャッフル事前トレーニングと比較する。
その結果, 逐次訓練されたモデルは, より最新かつ時間的に正確な知識を示しつつ, 一般的な言語理解と共通知識に基づくシャッフルベースラインと一致していることがわかった。
仮に注文された事前学習の収量によって、事実の鮮度が向上し、古いデータで事前学習のピークがシャッフルされた。
これらの結果と, https://github.com/kyutai-labs/kairos でのコードのリリース, https://huggingface.co/collections/kyutai/kairos でのチェックポイント, データセットは, LLM の継続的学習に関する今後の研究基盤を提供する。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Lifelong Pretraining: Continually Adapting Language Models to Emerging
Corpora [31.136334214818305]
本稿では,PTLMが更新され続けている言語モデル事前学習課題について検討する。
ドメインインクリメンタルな研究論文ストリームと時系列に順序付けられたつぶやきストリームを通じて、PTLMを異なる連続学習アルゴリズムで段階的に事前訓練する。
本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。
論文 参考訳(メタデータ) (2021-10-16T09:59:33Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Time-Aware Language Models as Temporal Knowledge Bases [39.00042720454899]
言語モデル(LM)は特定のタイミングで収集されたデータのスナップショットに基づいて訓練される。
本稿では,時間とともに変化する事実的知識に対するLMの探索を目的とした診断データセットを提案する。
本稿では,テキストをタイムスタンプでモデル化する簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T06:18:57Z) - Conditional Mutual information-based Contrastive Loss for Financial Time
Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。
本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-18T15:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。