Fugu-MT 論文翻訳(概要): Evolving Subnetwork Training for Large Language Models

論文の概要: Evolving Subnetwork Training for Large Language Models

arxiv url: http://arxiv.org/abs/2406.06962v1
Date: Tue, 11 Jun 2024 05:44:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 17:25:19.104441
Title: Evolving Subnetwork Training for Large Language Models
Title（参考訳）: 大規模言語モデルのためのサブネットワーク学習の展開
Authors: Hanqi Li, Lu Chen, Da Ma, Zijian Wu, Su Zhu, Kai Yu,
Abstract要約: 我々は、新しいトレーニングパラダイム、Evolving Subnetwork Training (EST)を提案する。 ESTサンプルは、大きな言語モデルのレイヤから、そして各レイヤで一般的に使用されるモジュールから作成される。 GPT2モデルのトレーニングとTinyLlamaモデルのトレーニングにESTを適用した結果,GPT2の26.7%のFLOPとTinyLlamaの25.0%の削減を実現した。
参考スコア（独自算出の注目度）: 19.54861230097017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have ushered in a new era of artificial intelligence research. However, their substantial training costs hinder further development and widespread adoption. In this paper, inspired by the redundancy in the parameters of large language models, we propose a novel training paradigm: Evolving Subnetwork Training (EST). EST samples subnetworks from the layers of the large language model and from commonly used modules within each layer, Multi-Head Attention (MHA) and Multi-Layer Perceptron (MLP). By gradually increasing the size of the subnetworks during the training process, EST can save the cost of training. We apply EST to train GPT2 model and TinyLlama model, resulting in 26.7\% FLOPs saving for GPT2 and 25.0\% for TinyLlama without an increase in loss on the pre-training dataset. Moreover, EST leads to performance improvements in downstream tasks, indicating that it benefits generalization. Additionally, we provide intuitive theoretical studies based on training dynamics and Dropout theory to ensure the feasibility of EST. Our code is available at https://github.com/OpenDFM/EST.
Abstract（参考訳）: 大規模な言語モデルは、人工知能研究の新しい時代を支えてきた。しかし、そのかなりの訓練費は、さらなる開発と広く採用を妨げている。本稿では,大規模言語モデルのパラメータの冗長性に着想を得て,新しい訓練パラダイムであるEvolving Subnetwork Training (EST)を提案する。 ESTは、大規模な言語モデルのレイヤと、各レイヤで一般的に使用されるモジュール、MHA(Multi-Head Attention)とMLP(Multi-Layer Perceptron)からサブネットワークをサンプリングする。トレーニングプロセス中のサブネットワークのサイズを徐々に増加させることで、ESTはトレーニングコストを削減できる。 GPT2モデルとTinyLlamaモデルのトレーニングにESTを適用すると、事前トレーニングデータセットの損失が増大することなく、GPT2では26.7%のFLOPを、TinyLlamaでは25.0のFLOPを削減できる。さらに、ESTは下流タスクのパフォーマンス改善につながります。さらに、トレーニング力学とドロップアウト理論に基づく直感的な理論的研究を行い、ESTの実現可能性を保証する。私たちのコードはhttps://github.com/OpenDFM/ESTで公開されています。

関連論文リスト

TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文参考訳（メタデータ） (2024-10-23T18:00:00Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。 2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文参考訳（メタデータ） (2024-04-21T08:20:02Z)
Inheritune: Training Smaller Yet More Attentive Language Models [61.363259848264725]
Inherituneは、より小型で高性能な言語モデルを開発するための、シンプルで効果的なトレーニングレシピである。 Inheritune は OpenWebText-9B や FineWeb_edu のようなデータセット上で GPT-2 モデルのさまざまなサイズのトレーニングを可能にする。
論文参考訳（メタデータ） (2024-04-12T17:53:34Z)
INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文参考訳（メタデータ） (2023-05-11T09:24:41Z)
SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文参考訳（メタデータ） (2023-03-18T17:56:01Z)
Large Deviations for Accelerating Neural Networks Training [5.864710987890994]
LAD改良反復訓練(LIIT)は,大規模な逸脱原理を用いたANNのための新しい訓練手法である。 LIITアプローチでは、LAD異常スコアに基づくサンプリング戦略を用いて、MTS(Modified Training Sample)を生成し、反復的に更新する。 MTSサンプルは、各クラスにおける観察のほとんどを異常に含めることで、トレーニングデータをうまく表現するように設計されている。
論文参考訳（メタデータ） (2023-03-02T04:14:05Z)
Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文参考訳（メタデータ） (2022-09-17T10:46:32Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Neural Semi-supervised Learning for Text Classification Under Large-Scale Pretraining [51.19885385587916]
我々は、大規模LM事前学習の文脈下で、テキスト分類タスクにおける半教師あり学習の研究を行う。我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。
論文参考訳（メタデータ） (2020-11-17T13:39:05Z)
The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文参考訳（メタデータ） (2020-07-23T19:35:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。