Fugu-MT 論文翻訳(概要): Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

論文の概要: Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

arxiv url: http://arxiv.org/abs/2409.12903v2
Date: Fri, 20 Sep 2024 16:22:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 12:59:09.659471
Title: Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization
Title（参考訳）: スマートスケーリング: 小規模モデル初期化による大規模言語モデルの事前トレーニングの高速化
Authors: Mohammad Samragh, Iman Mirzadeh, Keivan Alizadeh Vahid, Fartash Faghri, Minsik Cho, Moin Nabi, Devang Naik, Mehrdad Farajtabar,
Abstract要約: 本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
参考スコア（独自算出の注目度）: 22.90653167145603
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The pre-training phase of language models often begins with randomly initialized parameters. With the current trends in scaling models, training their large number of parameters can be extremely slow and costly. In contrast, small language models are less expensive to train, but they often cannot achieve the accuracy of large models. In this paper, we explore an intriguing idea to connect these two different regimes: Can we develop a method to initialize large language models using smaller pre-trained models? Will such initialization bring any benefits in terms of training time and final accuracy? In this paper, we introduce HyperCloning, a method that can expand the parameters of a pre-trained language model to those of a larger model with increased hidden dimensions. Our method ensures that the larger model retains the functionality of the smaller model. As a result, the larger model already inherits the predictive power and accuracy of the smaller model before the training starts. We demonstrate that training such an initialized model results in significant savings in terms of GPU hours required for pre-training large language models.
Abstract（参考訳）: 言語モデルの事前学習フェーズは、しばしばランダムに初期化パラメータから始まる。モデルスケーリングの現在のトレンドでは、大量のパラメータをトレーニングするのは、非常に遅くてコストがかかります。対照的に、小さな言語モデルは訓練に費用がかからないが、大きなモデルの精度を達成できないことが多い。本稿では,これら2つの制度を接続する興味深いアイデアを探求する。より小さな事前学習モデルを用いて,大規模言語モデルを初期化する手法を開発することができるか? このような初期化は、トレーニング時間と最終的な正確性という面で、何らかのメリットをもたらすのだろうか? 本稿では,事前学習した言語モデルのパラメータを,隠れ次元の増大した大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。我々の手法は、より大きなモデルがより小さなモデルの機能を保っていることを保証します。結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。このような初期化モデルをトレーニングすることで,大規模言語モデルの事前学習に必要なGPU時間を大幅に削減できることを実証する。

関連論文リスト

Evolution without Large Models: Training Language Model with Task Principles [52.44569608690695]
言語モデルの一般的なトレーニングアプローチは、人間が提供したデータセットを拡張するために、大規模な言語モデルを使用することである。この方法は、広範囲な人的データアノテーションの必要性を排除し、トレーニングコストを大幅に削減する。しかし、データ拡張時の二酸化炭素排出量の増加や、データ漏洩のリスクなど、依然として課題に直面している。
論文参考訳（メタデータ） (2025-07-08T13:52:45Z)
Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文参考訳（メタデータ） (2024-07-09T22:37:59Z)
Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文参考訳（メタデータ） (2024-04-02T18:00:28Z)
Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文参考訳（メタデータ） (2023-11-30T18:58:26Z)
nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文参考訳（メタデータ） (2023-04-14T00:45:01Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文参考訳（メタデータ） (2022-04-12T14:19:49Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文参考訳（メタデータ） (2021-04-23T02:56:02Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。