論文の概要: Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers
- arxiv url: http://arxiv.org/abs/2406.16450v2
- Date: Tue, 05 Nov 2024 22:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:20:58.088279
- Title: Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers
- Title(参考訳): 効率的な基礎構築:構造的フィードフォワード層を用いたLLMの効果的訓練
- Authors: Xiuying Wei, Skander Moalla, Razvan Pascanu, Caglar Gulcehre,
- Abstract要約: 大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
- 参考スコア(独自算出の注目度): 16.253898272659242
- License:
- Abstract: State-of-the-art results in large language models (LLMs) often rely on scale, which becomes computationally expensive. This has sparked a research agenda to reduce these models' parameter counts and computational costs without significantly impacting their performance. Our study focuses on transformer-based LLMs, specifically targeting the computationally intensive feedforward networks (FFNs), which are less studied than attention blocks. We consider three structured linear parameterizations of the FFN using efficient low-rank and block-diagonal matrices. In contrast to many previous works that examined these approximations, our study i) explores these structures from a training-from-scratch perspective, ii) scales up to 1.3B parameters, and iii) is conducted within recent Transformer-based LLMs rather than convolutional architectures. We demonstrate that these structures can lead to actual computational gains in various scenarios, including online decoding when using a pre-merge technique. Additionally, we propose a novel training regime, called \textit{self-guided training}, aimed at improving the poor training dynamics that these approximations exhibit when used from initialization. Interestingly, the scaling performance of structured matrices is explored, revealing steeper curves in scaling training FLOPs, along with a favorable scaling trend in the overtraining regime. Specifically, we show that wide and structured networks can utilize training FLOPs more efficiently, with fewer parameters and lower loss than dense models at their optimal trade-off. Our code is available at \url{https://github.com/CLAIRE-Labo/StructuredFFN/tree/main}.
- Abstract(参考訳): 大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
このことが、これらのモデルのパラメータ数と計算コストを、性能に大きな影響を及ぼすことなく削減する研究の議題となった。
本研究では,注意ブロックよりも少ない計算集約フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
効率的な低ランクおよびブロック対角行列を用いたFFNの3つの線形パラメータ化について考察する。
これらの近似を調べた多くの先行研究とは対照的に、本研究では、これらの近似を検証した。
i)これらの構造をスクラッチからのトレーニングの観点から探究すること。
ii) 1.3Bパラメータにスケールし、
三 畳み込み建築というよりは、近年のトランスフォーマー方式のLLMにおいて行うこと。
我々は,これらの構造が,事前マージ手法を用いたオンライン復号化など,様々なシナリオにおいて実際の計算精度向上につながることを実証した。
また,初期化を契機に,これらの近似が示す低速なトレーニング力学を改善することを目的とした,‘textit{self-guided training’と呼ばれる新しいトレーニング体制を提案する。
興味深いことに, 構造化行列のスケーリング性能について検討し, FLOPのスケーリングトレーニングにおける曲線の急激な増加と, オーバートレーニング体制におけるスケーリングの傾向を明らかにした。
具体的には、広範かつ構造化されたネットワークは、最適なトレードオフ時の高密度モデルよりも少ないパラメータと損失で、FLOPsのトレーニングをより効率的に利用することができることを示す。
我々のコードは \url{https://github.com/CLAIRE-Labo/StructuredFFN/tree/main} で利用可能です。
関連論文リスト
- Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices [88.33936714942996]
アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。
そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
論文 参考訳(メタデータ) (2024-10-03T00:44:50Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Towards Structured Dynamic Sparse Pre-Training of BERT [4.567122178196833]
BERT言語モデリングタスクのための、単純で動的で、常にスパースな事前学習手法を開発し、研究する。
粗い粒度のブロック間隔を使用する場合、トレーニングはFLOP効率を保ち、現代のハードウェアアクセラレーター上での効率的な実行を特に有望であることを示す。
論文 参考訳(メタデータ) (2021-08-13T14:54:26Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。