論文の概要: PolyPythias: Stability and Outliers across Fifty Language Model Pre-Training Runs
- arxiv url: http://arxiv.org/abs/2503.09543v1
- Date: Wed, 12 Mar 2025 16:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:17.556439
- Title: PolyPythias: Stability and Outliers across Fifty Language Model Pre-Training Runs
- Title(参考訳): PolyPythias:50の言語モデルによる事前トレーニング実行における安定性とアウトリーチ
- Authors: Oskar van der Wal, Pietro Lesci, Max Muller-Eberstein, Naomi Saphra, Hailey Schoelkopf, Willem Zuidema, Stella Biderman,
- Abstract要約: Pythiaモデルスイート用の45の新しいトレーニング実行セットであるPolyPythiasを紹介します。
種によって決定される初期条件の違いが,(i)下流のパフォーマンス,(ii)言語表現の学習,(iii)訓練段階の出現に及ぼす影響について検討した。
- 参考スコア(独自算出の注目度): 17.610388340978215
- License:
- Abstract: The stability of language model pre-training and its effects on downstream performance are still understudied. Prior work shows that the training process can yield significantly different results in response to slight variations in initial conditions, e.g., the random seed. Crucially, the research community still lacks sufficient resources and tools to systematically investigate pre-training stability, particularly for decoder-only language models. We introduce the PolyPythias, a set of 45 new training runs for the Pythia model suite: 9 new seeds across 5 model sizes, from 14M to 410M parameters, resulting in about 7k new checkpoints that we release. Using these new 45 training runs, in addition to the 5 already available, we study the effects of different initial conditions determined by the seed -- i.e., parameters' initialisation and data order -- on (i) downstream performance, (ii) learned linguistic representations, and (iii) emergence of training phases. In addition to common scaling behaviours, our analyses generally reveal highly consistent training dynamics across both model sizes and initial conditions. Further, the new seeds for each model allow us to identify outlier training runs and delineate their characteristics. Our findings show the potential of using these methods to predict training stability.
- Abstract(参考訳): 言語モデルの事前学習の安定性と下流性能への影響はまだ検討されている。
以前の研究では、初期条件、例えばランダムシードのわずかな変化に応答して、トレーニングプロセスが著しく異なる結果が得られることが示されていた。
重要なことに、研究コミュニティには、特にデコーダのみの言語モデルにおいて、トレーニング前の安定性を体系的に調査する十分なリソースやツールが不足している。
Pythiaモデルスイート用の45の新しいトレーニング実行セットであるPolyPythiaを紹介します。14Mから410Mパラメータの5つのモデルサイズにまたがる9つの新しいシード。
これら45のトレーニングランを使用して、既に利用可能な5つのトレーニングに加えて、種によって決定される異なる初期条件、すなわちパラメータの初期化とデータ順序が与える影響を調査する。
(i)下流のパフォーマンス
(二)言語表現を学び、
三 訓練段階の出現
一般的なスケーリング動作に加えて,本分析では,モデルサイズと初期条件の両方にわたって,高度に一貫したトレーニングのダイナミクスを明らかにしている。
さらに,各モデルに対する新しい種は,アウトリエトレーニングの実行を識別し,それらの特性をデライン化することができる。
本研究は,これらの手法によるトレーニング安定性の予測の可能性を示す。
関連論文リスト
- Self-training Language Models for Arithmetic Reasoning [0.0]
我々は、新しいデータなしでモデルの推論能力を改善する可能性を探る。
モデルは単一ラウンド(オフライン)とオンラインの自己学習の両方で大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2024-07-11T11:06:05Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - A study on the impact of pre-trained model on Just-In-Time defect
prediction [10.205110163570502]
RoBERTaJIT、CodeBERTJIT、BARTJIT、PLBARTJIT、GPT2JIT、CodeGPTJITの6つのモデルを構築します。
本稿では,コミットコードとコミットメッセージを入力として使用する際のモデルの性能と,トレーニング効率とモデル分布の関係について検討する。
論文 参考訳(メタデータ) (2023-09-05T15:34:22Z) - An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration [11.102950630209879]
アウト・オブ・ディストリビューション(OOD)の一般化タスクでは、微調整された事前学習モデルが一般的な戦略となっている。
本研究では,事前学習モデルサイズ,事前学習データセットサイズ,トレーニング戦略が一般化と不確実性校正にどのように影響するかを検討した。
論文 参考訳(メタデータ) (2023-07-17T01:27:10Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - The MultiBERTs: BERT Reproductions for Robustness Analysis [86.29162676103385]
事前トレーニングの再実行は、パフォーマンスに関して、かなり異なる結論をもたらす可能性がある。
我々は25個のBERTベースのチェックポイントの集合であるMultiBERTを紹介する。
目標は、研究者が事前訓練の手順について、堅牢で統計的に正当化された結論を描けるようにすることである。
論文 参考訳(メタデータ) (2021-06-30T15:56:44Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。