Fugu-MT 論文翻訳(概要): Pre-training Small Base LMs with Fewer Tokens

論文の概要: Pre-training Small Base LMs with Fewer Tokens

arxiv url: http://arxiv.org/abs/2404.08634v1
Date: Fri, 12 Apr 2024 17:53:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 14:18:01.730498
Title: Pre-training Small Base LMs with Fewer Tokens
Title（参考訳）: 少ないトーケンを用いた小形鋼板のプレトレーニング
Authors: Sunny Sanyal, Sujay Sanghavi, Alexandros G. Dimakis,
Abstract要約: 本研究では,既存の大規模基盤LMから始まる小ベース言語モデル(LM)を簡易に開発する手法の有効性について検討する。簡単なレシピをInherituneと呼び、まず1Bトークンを使って1.5Bパラメータを持つ小さなベースLMを構築することを実証します。 GPT2-medium (355M) と GPT-2-large (770M) のいくつかの層を利用して訓練した小型LMは、スクラッチからトレーニングした場合に、より大きい層が失われることに効果的に対応できることを示した。
参考スコア（独自算出の注目度）: 63.81067268919042
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.
Abstract（参考訳）: 提案手法は,既存の大規模 LM から始まる小さなベース言語モデル (LM) を構築するための単純なアプローチの有効性について検討する。まず,大規模 LM からいくつかのトランスフォーマーブロックを継承し,この小さなモデルを大規模 LM の生事前学習データの非常に小さなサブセット (0.1 %) で訓練する。簡単なレシピをInherituneと呼び、1Bトークン(および3Bパラメータの大きなLMの開始数層)を使用して1.5Bパラメータを持つ小さなベースLMを構築するために、まずそれをデモします。 9つの多様な評価データセットとMMLUベンチマークで、結果として得られたモデルは、50～1000倍のトークンを使用してトレーニングされた1B-2Bサイズの公開ベースモデルと好適に比較できる。我々はInherituneを少し異なる環境で調査し、より大きなLMと完全な事前学習データセットを用いて小さなLMを訓練する。ここでは, GPT2-medium (355M) と GPT-2-large (770M) の層を利用してトレーニングされた小規模なLMが,OpenWebTextデータセットの9Bトークンによるトレーニングステップと同じ数に対して,スクラッチからトレーニングを行った場合の,より大きなレイヤの損失に効果的に対応可能であることを示す。レシピを広範囲な実験で分析し,多種多様な設定で有効性を示す。私たちのコードはhttps://github.com/sanyalsunny111/LLM-Inherituneで利用可能です。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。 PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-28T15:27:57Z)
Evolving Subnetwork Training for Large Language Models [19.54861230097017]
我々は、新しいトレーニングパラダイム、Evolving Subnetwork Training (EST)を提案する。 ESTサンプルは、大きな言語モデルのレイヤから、そして各レイヤで一般的に使用されるモジュールから作成される。 GPT2モデルのトレーニングとTinyLlamaモデルのトレーニングにESTを適用した結果,GPT2の26.7%のFLOPとTinyLlamaの25.0%の削減を実現した。
論文参考訳（メタデータ） (2024-06-11T05:44:56Z)
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2024-03-06T17:04:18Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
Enhancing Cross-Category Learning in Recommendation Systems with Multi-Layer Embedding Training [2.4862527485819186]
多層埋め込み訓練(MLET)は、埋め込み層の因子化による埋め込みを訓練する。 MLETは、特に稀なアイテムに対して、一貫してより良いモデルを生成する。モデル品質が一定であれば、MLETは埋め込み寸法とモデルサイズを最大16倍、平均5.8倍まで減らすことができる。
論文参考訳（メタデータ） (2023-09-27T09:32:10Z)
Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文参考訳（メタデータ） (2023-03-09T13:42:04Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文参考訳（メタデータ） (2021-06-22T13:20:14Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。その結果,メモリフットプリントの精度が向上し,dを4～8倍削減できることがわかった。
論文参考訳（メタデータ） (2020-06-10T02:47:40Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。