論文の概要: Crown, Frame, Reverse: Layer-Wise Scaling Variants for LLM Pre-Training
- arxiv url: http://arxiv.org/abs/2509.06518v1
- Date: Mon, 08 Sep 2025 10:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.063589
- Title: Crown, Frame, Reverse: Layer-Wise Scaling Variants for LLM Pre-Training
- Title(参考訳): Crown, Frame, Reverse: LLM事前トレーニング用レイヤワイズスケーリングバリアント
- Authors: Andrei Baroian, Kasper Notebomer,
- Abstract要約: トランスフォーマーベースの言語モデルは伝統的に一様(等方性)のレイヤーサイズを使用するが、異なる深さと計算能力を必要とする様々な機能的役割を無視する。
我々は,Framed,Reverse,Crownの3つの新しい文学版を導入し,事前学習段階において,FFN幅と注目ヘッドを2点または3点線形に再分割する。
5Bトークンでトレーニングされた180Mパラメータの固定予算上で,LWSとその変種に対する最初の体系的アブレーションを示す。
すべてのモデルは同様の損失に収束し、トレーニングを著しく減らすことなく、同じコストの等方的ベースラインよりも優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transformer-based language models traditionally use uniform (isotropic) layer sizes, yet they ignore the diverse functional roles that different depths can play and their computational capacity needs. Building on Layer-Wise Scaling (LWS) and pruning literature, we introduce three new LWS variants - Framed, Reverse, and Crown - that redistribute FFN widths and attention heads via two or three-point linear interpolation in the pre-training stage. We present the first systematic ablation of LWS and its variants, on a fixed budget of 180M parameters, trained on 5B tokens. All models converge to similar losses and achieve better performance compared to an equal-cost isotropic baseline, without a substantial decrease in training throughput. This work represents an initial step into the design space of layer-wise architectures for pre-training, but future work should scale experiments to orders of magnitude more tokens and parameters to fully assess their potential.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは伝統的に一様(等方性)のレイヤーサイズを使用するが、異なる深さと計算能力を必要とする様々な機能的役割を無視する。
LWS(Layer-Wise Scaling)とプルーニング文学(Pruning literature)の上に構築された新しい3つのLWS変種(Framed, Reverse, Crown)を導入する。
5Bトークンでトレーニングされた180Mパラメータの固定予算上で,LWSとその変種に対する最初の体系的アブレーションを示す。
すべてのモデルは同様の損失に収束し、トレーニングのスループットを大幅に低下させることなく、同等のコストの等方的ベースラインよりも優れたパフォーマンスを達成する。
この作業は、事前トレーニングのためのレイヤワイドアーキテクチャの設計空間への最初のステップを示しているが、将来の作業では、実験を、その可能性を完全に評価するために、桁違いに多くのトークンとパラメータにスケールする必要がある。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - Benchmarking down-scaled (not so large) pre-trained language models [0.0]
大規模なトランスフォーマーベースの言語モデルは、異なる数のステップと異なるバッチサイズのコーパスで事前学習されている。
形状パラメータとモデルサイズが異なる3つの事前学習目標を比較し、事前学習ステップの数とバッチサイズを変化させる。
私たちの実験では、NSP +BERTスタイルは、標準LM目標と同様に一貫して(RoBERTaスタイル)を上回ります。
論文 参考訳(メタデータ) (2021-05-11T09:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。