論文の概要: Pre-training Small Base LMs with Fewer Tokens
- arxiv url: http://arxiv.org/abs/2404.08634v1
- Date: Fri, 12 Apr 2024 17:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 14:18:01.730498
- Title: Pre-training Small Base LMs with Fewer Tokens
- Title(参考訳): 少ないトーケンを用いた小形鋼板のプレトレーニング
- Authors: Sunny Sanyal, Sujay Sanghavi, Alexandros G. Dimakis,
- Abstract要約: 本研究では,既存の大規模基盤LMから始まる小ベース言語モデル(LM)を簡易に開発する手法の有効性について検討する。
簡単なレシピをInherituneと呼び、まず1Bトークンを使って1.5Bパラメータを持つ小さなベースLMを構築することを実証します。
GPT2-medium (355M) と GPT-2-large (770M) のいくつかの層を利用して訓練した小型LMは、スクラッチからトレーニングした場合に、より大きい層が失われることに効果的に対応できることを示した。
- 参考スコア(独自算出の注目度): 63.81067268919042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.
- Abstract(参考訳): 提案手法は,既存の大規模 LM から始まる小さなベース言語モデル (LM) を構築するための単純なアプローチの有効性について検討する。まず,大規模 LM からいくつかのトランスフォーマーブロックを継承し,この小さなモデルを大規模 LM の生事前学習データの非常に小さなサブセット (0.1 %) で訓練する。
簡単なレシピをInherituneと呼び、1Bトークン(および3Bパラメータの大きなLMの開始数層)を使用して1.5Bパラメータを持つ小さなベースLMを構築するために、まずそれをデモします。
9つの多様な評価データセットとMMLUベンチマークで、結果として得られたモデルは、50~1000倍のトークンを使用してトレーニングされた1B-2Bサイズの公開ベースモデルと好適に比較できる。
我々はInherituneを少し異なる環境で調査し、より大きなLMと完全な事前学習データセットを用いて小さなLMを訓練する。
ここでは, GPT2-medium (355M) と GPT-2-large (770M) の層を利用してトレーニングされた小規模なLMが,OpenWebTextデータセットの9Bトークンによるトレーニングステップと同じ数に対して,スクラッチからトレーニングを行った場合の,より大きなレイヤの損失に効果的に対応可能であることを示す。
レシピを広範囲な実験で分析し,多種多様な設定で有効性を示す。
私たちのコードはhttps://github.com/sanyalsunny111/LLM-Inherituneで利用可能です。
関連論文リスト
- BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models [2.2863439039616127]
調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。
従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。
本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:13:55Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Ensemble-Instruct: Generating Instruction-Tuning Data with a
Heterogeneous Mixture of LMs [23.38507910115345]
In-context Learning (ICL)技術は、少数の人間の監督だけで強力な会話エージェントを訓練することができる。
ここでは、より小さく(約10B-40Bパラメータ)、許容ライセンスを持つ言語モデルへのそのような手法の適用について検討する。
我々は,これらのサイズでは効果が低いセルフインストラクト手法を考案し,2つの主要なアイデアに基づいて新たなICL手法を提案する。
論文 参考訳(メタデータ) (2023-10-21T10:21:17Z) - CombLM: Adapting Black-Box Language Models through Small Fine-Tuned
Models [43.28607973774104]
言語モデル(LM)を新しいタスクやドメインに適用するための手法は、伝統的にモデルへのホワイトボックスアクセスを前提としてきた。
重み付けや中間的アクティベーションへのアクセスを前提に,大規模LMを新しい領域やタスクに適用するための軽量な手法を提案する。
提案手法は, 小型のホワイトボックスLMを微調整し, 小さなネットワークを介して, 確率レベルで大きなブラックボックスLMと組み合わせることである。
論文 参考訳(メタデータ) (2023-05-23T06:32:55Z) - Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models [106.65127123304842]
Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。
BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。
実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
論文 参考訳(メタデータ) (2022-08-05T17:46:38Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Neural Semi-supervised Learning for Text Classification Under
Large-Scale Pretraining [51.19885385587916]
我々は、大規模LM事前学習の文脈下で、テキスト分類タスクにおける半教師あり学習の研究を行う。
我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。
論文 参考訳(メタデータ) (2020-11-17T13:39:05Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。