Fugu-MT 論文翻訳(概要): SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models

論文の概要: SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models

arxiv url: http://arxiv.org/abs/2303.10464v2
Date: Sat, 29 Jul 2023 19:56:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 23:18:07.063462
Title: SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models
Title（参考訳）: SPDF:大規模言語モデルのためのスパース事前学習と深度微調整
Authors: Vithursan Thangarasa, Abhay Gupta, William Marshall, Tianda Li, Kevin Leong, Dennis DeCoste, Sean Lie, Shreyas Saxena
Abstract要約: 本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
参考スコア（独自算出の注目度）: 4.114555639014612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The pre-training and fine-tuning paradigm has contributed to a number of breakthroughs in Natural Language Processing (NLP). Instead of directly training on a downstream task, language models are first pre-trained on large datasets with cross-domain knowledge (e.g., Pile, MassiveText, etc.) and then fine-tuned on task-specific data (e.g., natural language generation, text summarization, etc.). Scaling the model and dataset size has helped improve the performance of LLMs, but unfortunately, this also lead to highly prohibitive computational costs. Pre-training LLMs often require orders of magnitude more FLOPs than fine-tuning and the model capacity often remains the same between the two phases. To achieve training efficiency w.r.t training FLOPs, we propose to decouple the model capacity between the two phases and introduce Sparse Pre-training and Dense Fine-tuning (SPDF). In this work, we show the benefits of using unstructured weight sparsity to train only a subset of weights during pre-training (Sparse Pre-training) and then recover the representational capacity by allowing the zeroed weights to learn (Dense Fine-tuning). We demonstrate that we can induce up to 75% sparsity into a 1.3B parameter GPT-3 XL model resulting in a 2.5x reduction in pre-training FLOPs, without a significant loss in accuracy on the downstream tasks relative to the dense baseline. By rigorously evaluating multiple downstream tasks, we also establish a relationship between sparsity, task complexity and dataset size. Our work presents a promising direction to train large GPT models at a fraction of the training FLOPs using weight sparsity, while retaining the benefits of pre-trained textual representations for downstream tasks.
Abstract（参考訳）: 事前学習と微調整のパラダイムは、自然言語処理(NLP)における多くのブレークスルーに寄与している。下流タスクを直接トレーニングする代わりに、言語モデルはクロスドメインの知識を持つ大規模なデータセット(Pile、MassiveTextなど)で事前トレーニングされ、タスク固有のデータ(自然言語生成、テキスト要約など)で微調整される。モデルとデータセットのサイズをスケールすることは、llmのパフォーマンスを改善するのに役立ったが、残念なことに、これは非常に厳しい計算コストにつながる。事前学習のLLMは微調整よりもFLOPの桁数が多く、モデル容量は2つのフェーズ間で同じであることが多い。 FLOPの学習効率向上のために,2相間のモデル容量を分離し,Sparse Pre-training and Dense Fine-tuning (SPDF)を導入することを提案する。本研究では,非構造的重み空間を用いて,事前訓練(スパース事前訓練)中にのみ重みのサブセットを訓練し,ゼロ重みを学習させることにより表現能力の回復を図ることの利点を示す。その結果,1.3bパラメータのgpt-3xlモデルに最大75%のスパース性が誘導され,前訓練フロップの2.5倍削減が得られた。複数の下流タスクを厳格に評価することにより、スパーシリティ、タスクの複雑さ、データセットサイズとの関係も確立する。本研究は,下流タスクに対する事前学習されたテキスト表現の利点を保ちながら,重み空間を用いた訓練用FLOPのごく一部において,大規模GPTモデルをトレーニングするための有望な方向を示す。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文参考訳（メタデータ） (2023-05-11T09:24:41Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文参考訳（メタデータ） (2022-03-10T06:23:41Z)
NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework [10.656788279434798]
本稿では,大規模事前学習に依存しない,シンプルで効率的な学習フレームワーク TLM を提案する。 4つの領域の8つの分類データセットにおいて、TLMは事前訓練された言語モデルよりも良い結果が得られる。
論文参考訳（メタデータ） (2021-11-07T17:13:59Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文参考訳（メタデータ） (2021-09-08T10:39:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。