論文の概要: Procedural Pretraining: Warming Up Language Models with Abstract Data
- arxiv url: http://arxiv.org/abs/2601.21725v1
- Date: Thu, 29 Jan 2026 13:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.866194
- Title: Procedural Pretraining: Warming Up Language Models with Abstract Data
- Title(参考訳): 手続き的事前トレーニング:抽象データによる言語モデルのウォームアップ
- Authors: Liangze Jiang, Zachary Shinnick, Anton van den Hengel, Hemanth Saratchandran, Damien Teney,
- Abstract要約: Webスケールコーパスに直接事前トレーニングすることは、言語モデルを構築するためのデファクトパラダイムである。
モデルが最初に抽象的な構造化データに晒されるような代替設定について検討し、その後のリッチなセマンティック知識の獲得を容易にする方法を提案する。
具体的には、フォーマルな言語やその他の単純なアルゴリズムによって生成された手続き的なデータ、例えば抽象的なデータに焦点を当てる。
- 参考スコア(独自算出の注目度): 40.183555811204506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining directly on web-scale corpora is the de facto paradigm for building language models. We study an alternative setting where the model is initially exposed to abstract structured data, as a means to ease the subsequent acquisition of rich semantic knowledge, much like humans learn simple logic and mathematics before higher reasoning. We specifically focus on procedural data, generated by formal languages and other simple algorithms, as such abstract data. We first diagnose the algorithmic skills that different forms of procedural data can improve, often significantly. For example, on context recall (Needle-in-a-haystack), the accuracy jumps from 10 to 98% when pretraining on Dyck sequences (balanced brackets). Second, we study how these gains are reflected in pretraining larger models (up to 1.3B). We find that front-loading as little as 0.1% procedural data significantly outperforms standard pretraining on natural language, code, and informal mathematics (C4, CodeParrot, and DeepMind-Math datasets). Notably, this procedural pretraining enables the models to reach the same loss value with only 55, 67, 86% of the original data. Third, we explore the mechanisms behind and find that procedural pretraining instils non-trivial structure in both attention and MLP layers. The former is particularly important for structured domains (e.g. code), and the latter for language. Finally, we lay a path for combining multiple forms of procedural data. Our results show that procedural pretraining is a simple, lightweight means to improving performance and accelerating language model pretraining, ultimately suggesting the promise of disentangling knowledge acquisition from reasoning in LLMs.
- Abstract(参考訳): Webスケールコーパスに直接事前トレーニングすることは、言語モデルを構築するためのデファクトパラダイムである。
モデルが最初に抽象的な構造化データに晒される別の環境について研究し、より高度な推論を行う前に、人間が単純な論理学や数学を学ぶのと同じように、後続のリッチな意味知識の獲得を容易にする手段として検討する。
具体的には、フォーマルな言語やその他の単純なアルゴリズムによって生成された手続き的なデータ、例えば抽象的なデータに焦点を当てる。
私たちはまず、異なる形式の手続きデータによって改善されるアルゴリズムのスキルを診断します。
例えば、コンテキストリコール(Needle-in-a-haystack)では、Dyckシーケンス(バランスの取れたブラケット)の事前トレーニング時に精度が10から98%に向上する。
第2に、これらの利得がより大きなモデル(最大1.3B)の事前学習にどのように反映されるかを検討する。
フロントローディングを0.1%のプロシージャデータで行うと、自然言語、コード、非公式数学(C4、CodeParrot、DeepMind-Mathデータセット)の標準事前学習よりも大幅に優れることがわかった。
この手続き的事前訓練により、モデルは元のデータの55, 67, 86%で同じ損失値に達することができる。
第三に、手続き的事前訓練が注意層とMLP層の両方において非自明な構造を損なうことを明らかにする。
前者は構造化ドメイン(例えばコード)で特に重要であり、後者は言語で重要である。
最後に、複数の手続きデータを組み合わせるための経路を配置する。
この結果から,手続き的事前学習は,言語モデル事前学習の高速化と性能向上のためのシンプルで軽量な手段であり,究極的にはLLMにおける推論から知識獲得を遠ざける可能性を示唆している。
関連論文リスト
- Transformers Pretrained on Procedural Data Contain Modular Structures for Algorithmic Reasoning [40.84344912259233]
我々は,小型変圧器の改良にともなう,特定のアルゴリズム推論スキルとともに,手続きデータに有用ないくつかの形式を同定する。
我々の中核となる発見は、異なる手続き規則がモデルにおいて異なるが相補的な帰納的構造を具現化することである。
最も興味深いのは、複数の規則によって誘導される構造は、複数の能力を共同で付与するために構成することができることである。
論文 参考訳(メタデータ) (2025-05-28T12:50:09Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Reasoning to Learn from Latent Thoughts [61.2395150828168]
本研究では,テキスト生成プロセスの根底にある表現的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上させることができることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-03-24T16:41:23Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。