論文の概要: Train Once, Answer All: Many Pretraining Experiments for the Cost of One
- arxiv url: http://arxiv.org/abs/2509.23383v1
- Date: Sat, 27 Sep 2025 16:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.197296
- Title: Train Once, Answer All: Many Pretraining Experiments for the Cost of One
- Title(参考訳): 一度列車に乗れ! 試行錯誤実験がたくさん!
- Authors: Sebastian Bordt, Martin Pawelczyk,
- Abstract要約: 210Bトークン上の1.5Bパラメータモデルのトレーニング中に10つの実験を行った。
注目すべきは、モデルのトレーニングダイナミクスと全体的なパフォーマンスに対する10の実験の影響が最小限であることだ。
その結果,1回のトレーニングで複数の事前学習実験を行うことで,計算予算による大規模モデルによる厳密な科学的実験が可能になることが示唆された。
- 参考スコア(独自算出の注目度): 14.736494918283293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has demonstrated that controlled pretraining experiments are a powerful tool for understanding learning, reasoning, and memorization in large language models (LLMs). However, the computational cost of pretraining presents a significant constraint. To overcome this constraint, we propose to conduct multiple pretraining experiments simultaneously during a single training run. We demonstrate the feasibility of this approach by conducting ten experiments during the training of a 1.5B parameter model on 210B tokens. Although we only train a single model, we can replicate the results from multiple previous works on data contamination, poisoning, and memorization. We also conduct novel investigations into knowledge acquisition, mathematical reasoning, and watermarking. For example, we dynamically update the training data until the model acquires a particular piece of knowledge. Remarkably, the influence of the ten experiments on the model's training dynamics and overall performance is minimal. However, interactions between different experiments may act as a potential confounder in our approach. We propose to test for interactions with continual pretraining experiments, finding them to be negligible in our setup. Overall, our findings suggest that performing multiple pretraining experiments in a single training run can enable rigorous scientific experimentation with large models on a compute budget.
- Abstract(参考訳): 最近の研究は、制御された事前学習実験が、大規模言語モデル(LLM)における学習、推論、記憶を理解する強力なツールであることを実証している。
しかし、事前学習の計算コストは大きな制約となる。
この制約を克服するために,1回のトレーニング実行中に複数回の事前訓練実験を行うことを提案する。
210Bトークン上の1.5Bパラメータモデルのトレーニング中に10実験を行うことで,本手法の有効性を実証する。
単一のモデルのみをトレーニングしますが、データの汚染、中毒、記憶に関する過去の複数の研究の結果を再現することができます。
また、知識獲得、数学的推論、透かしに関する新たな研究も行っている。
例えば、モデルが特定の知識を取得するまで、トレーニングデータを動的に更新する。
注目すべきは、モデルのトレーニングダイナミクスと全体的なパフォーマンスに対する10の実験の影響が最小限であることだ。
しかし、異なる実験間の相互作用は、我々のアプローチにおける潜在的な共同創設者として機能するかもしれない。
本稿では, 連続的な事前学習実験との相互作用を検証することを提案する。
全体として,1回のトレーニングで複数の事前学習実験を行うことで,計算予算による大規模モデルによる厳密な科学的実験が可能になることが示唆された。
関連論文リスト
- Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる
PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。
バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - A Comparative Study of Pre-training and Self-training [0.40964539027092917]
本研究では,事前学習,自己学習,微調整を併用した,実現可能な訓練パラダイムを実証的に研究するためのアンサンブル手法を提案する。
我々は6つのデータセット、4つのデータ拡張、感情分析と自然言語推論タスクのための不均衡なデータについて実験を行った。
以上の結果から,事前学習と微調整のパラダイムが全体のパフォーマンスに最高の結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2024-09-04T14:30:13Z) - Training on the Test Task Confounds Evaluation and Emergence [16.32378359459614]
テストタスクのトレーニングは、相対モデル評価と創発的能力に関するクレームの両方に矛盾があることを示します。
ベンチマーク評価において,テストタスクに対するトレーニングの効果を効果的に調整する手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T17:57:58Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Cognitive simulation models for inertial confinement fusion: Combining
simulation and experimental data [0.0]
研究者は、高性能な爆発を求めて設計空間を探索するためにコンピュータシミュレーションに大きく依存しています。
より効果的な設計と調査のために、シミュレーションは過去の実験データからの入力を必要とする。
本稿では,シミュレーションと実験データを共通の予測モデルに組み合わせた認知シミュレーション手法について述べる。
論文 参考訳(メタデータ) (2021-03-19T02:00:14Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z) - Predicting Performance for Natural Language Processing Tasks [128.34208911925424]
実験条件を入力として,NLP実験の評価スコアを予測する回帰モデルを構築した。
9つの異なるNLPタスクを実験した結果、予測器は目に見えない言語や異なるモデリングアーキテクチャに対して有意義な予測を生成できることがわかった。
論文 参考訳(メタデータ) (2020-05-02T16:02:18Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。