論文の概要: Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers
- arxiv url: http://arxiv.org/abs/2406.16450v1
- Date: Mon, 24 Jun 2024 08:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:33:48.965839
- Title: Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers
- Title(参考訳): 効率的な基礎構築:構造的フィードフォワード層を用いたLLMの効果的訓練
- Authors: Xiuying Wei, Skander Moalla, Razvan Pascanu, Caglar Gulcehre,
- Abstract要約: 大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
このことが、これらのモデルのパラメータ数と計算コストを、性能に大きな影響を及ぼすことなく削減する研究の議題となった。
我々は,効率的な低ランク行列とブロック対角行列を組み合わせることで,FFNの線形層近似を3つの候補として検討する。
- 参考スコア(独自算出の注目度): 16.253898272659242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art results in large language models (LLMs) often rely on scale, which becomes computationally expensive. This has sparked a research agenda to reduce these models' parameter count and computational costs without significantly impacting their performance. Our study focuses on transformer-based LLMs, specifically targeting the computationally intensive feedforward networks (FFN), which are less studied than attention blocks. We consider three candidate linear layer approximations in the FFN by combining efficient low-rank and block-diagonal matrices. In contrast to many previous works that examined these approximations, our study i) explores these structures from the training-from-scratch perspective, ii) scales up to 1.3B parameters, and iii) is conducted within recent Transformer-based LLMs rather than convolutional architectures. We first demonstrate they can lead to actual computational gains in various scenarios, including online decoding when using a pre-merge technique. Additionally, we propose a novel training regime, called \textit{self-guided training}, aimed at improving the poor training dynamics that these approximations exhibit when used from initialization. Experiments on the large RefinedWeb dataset show that our methods are both efficient and effective for training and inference. Interestingly, these structured FFNs exhibit steeper scaling curves than the original models. Further applying self-guided training to the structured matrices with 32\% FFN parameters and 2.5$\times$ speed-up enables only a 0.4 perplexity increase under the same training FLOPs. Finally, we develop the wide and structured networks surpassing the current medium-sized and large-sized Transformer in perplexity and throughput performance. Our code is available at \url{https://github.com/CLAIRE-Labo/StructuredFFN/tree/main}.
- Abstract(参考訳): 大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
このことが、これらのモデルのパラメータ数と計算コストを、性能に大きな影響を及ぼすことなく削減する研究の議題となった。
本研究では,注意ブロックよりも少ない計算集約フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLSMについて検討した。
我々は,効率的な低ランク行列とブロック対角行列を組み合わせることで,FFNの線形層近似を3つの候補として検討する。
これらの近似を調べた多くの先行研究とは対照的に、本研究では、これらの近似を検証した。
i)これらの構造を、スクラッチの観点から探究すること。
ii) 1.3Bパラメータにスケールし、
三 畳み込み建築というよりは、近年のトランスフォーマー方式のLLMにおいて行うこと。
まず,事前マージ手法を用いたオンライン復号化など,様々なシナリオにおいて実際の計算能力向上につながることを実証した。
また,初期化を契機に,これらの近似が示す低速なトレーニング力学を改善することを目的とした,‘textit{self-guided training’と呼ばれる新しいトレーニング体制を提案する。
大規模なRefinedWebデータセットの実験は、我々のメソッドがトレーニングと推論に効率的かつ効果的であることを示している。
興味深いことに、これらの構造化FFNは元のモデルよりも急激なスケーリング曲線を示す。
さらに、32\% FFNパラメータと2.5$\times$ Speed-upを持つ構造化行列に自己誘導型トレーニングを適用することで、同じトレーニングFLOPの下では、0.4パープレキシティの増加しか実現できない。
最後に,現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを,パープレキシティとスループット性能で開発する。
我々のコードは \url{https://github.com/CLAIRE-Labo/StructuredFFN/tree/main} で利用可能です。
関連論文リスト
- Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。
線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文 参考訳(メタデータ) (2024-05-10T17:59:08Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。