論文の概要: Tending Towards Stability: Convergence Challenges in Small Language Models
- arxiv url: http://arxiv.org/abs/2410.11451v1
- Date: Tue, 15 Oct 2024 09:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:41.738406
- Title: Tending Towards Stability: Convergence Challenges in Small Language Models
- Title(参考訳): 安定に向けてのTending - 小型言語モデルにおける収束問題
- Authors: Richard Diehl Martinez, Pietro Lesci, Paula Buttery,
- Abstract要約: その利点にもかかわらず、より小型のモデルはより大きなモデルに比べて性能が劣ることが多い。
これは、比例的に表現能力の低下によるものである。
階層のアクティベーションの収束とパラメータの有効ランクを結びつけることで、我々の分析は、小さなモデルの学習力学における非効率性に対処するために将来の研究を導くことができる。
- 参考スコア(独自算出の注目度): 3.734405405403176
- License:
- Abstract: Increasing the number of parameters in language models is a common strategy to enhance their performance. However, smaller language models remain valuable due to their lower operational costs. Despite their advantages, smaller models frequently underperform compared to their larger counterparts, even when provided with equivalent data and computational resources. Specifically, their performance tends to degrade in the late pretraining phase. This is anecdotally attributed to their reduced representational capacity. Yet, the exact causes of this performance degradation remain unclear. We use the Pythia model suite to analyse the training dynamics that underlie this phenomenon. Across different model sizes, we investigate the convergence of the Attention and MLP activations to their final state and examine how the effective rank of their parameters influences this process. We find that nearly all layers in larger models stabilise early in training - within the first 20% - whereas layers in smaller models exhibit slower and less stable convergence, especially when their parameters have lower effective rank. By linking the convergence of layers' activations to their parameters' effective rank, our analyses can guide future work to address inefficiencies in the learning dynamics of small models.
- Abstract(参考訳): 言語モデルにおけるパラメータの数を増やすことは、そのパフォーマンスを高めるための一般的な戦略である。
しかし、より小さな言語モデルは、運用コストが低いため、価値を保っている。
それらの利点にもかかわらず、より小さなモデルは、同等のデータや計算資源が提供されても、より大きなモデルに比べて性能が劣ることが多い。
特に、そのパフォーマンスは、後期事前訓練フェーズで低下する傾向にある。
これは、比例的に表現能力の低下によるものである。
しかし、この性能劣化の正確な原因は不明である。
我々はPythiaモデルスイートを使用して、この現象の根底にあるトレーニングダイナミクスを分析する。
モデルのサイズによって異なるが、注意とMLPのアクティベーションの最終的な状態への収束について検討し、それらのパラメータの有効ランクがこのプロセスにどのように影響するかを検討する。
より大きなモデルのほぼすべてのレイヤが、トレーニングの初期段階(最初の20%以内)で安定化しているのに対して、小さなモデルのレイヤは、特にパラメータが有効ランクが低い場合には、遅く、より安定した収束を示します。
階層のアクティベーションの収束とパラメータの有効ランクを結びつけることで、我々の分析は、小さなモデルの学習力学における非効率性に対処するために将来の研究を導くことができる。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Effects of Scale on Language Model Robustness [7.725206196110384]
逆向きに訓練された大規模モデルは、より小さなモデルと比較して、訓練中に見えないような攻撃に対して、より速く、より良く一般化できることが示される。
また、計算量の増加による悪用/防御のバランスを分析し、ある設定で同等性を見つけ、他の設定で悪用する利点を見つけます。
論文 参考訳(メタデータ) (2024-07-25T17:26:41Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck [11.416426888383873]
より小型モデルは飽和に悩まされる可能性があり,訓練の先進点における性能低下を特徴とする。
これは、より小さなモデルの隠れ次元とターゲットの文脈確率分布の高階とのミスマッチによって説明できる。
各種設定におけるソフトマックスボトルネックの影響を計測し,1000次元未満の隠れ次元に基づくモデルでは,遅延事前学習において退化した潜在表現を採用する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-04-11T11:10:36Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale [5.759319006531332]
マスク付き言語モデリング(MLM)を用いた事前学習の利点を1.25Mパラメータのモデルで示す。
スケール法則を100Mパラメータのモデルに拡張し,ダウンスケーリング効果について検討する。
論文 参考訳(メタデータ) (2023-05-26T21:22:10Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - On the Effect of Dropping Layers of Pre-trained Transformer Models [35.25025837133909]
我々は、事前訓練されたモデルにレイヤをドロップする戦略を探求し、下流のGLUEタスクに対するプルーニングの効果を観察する。
BERT、RoBERTa、XLNetのモデルを40%まで、元のパフォーマンスの98%を維持できたのです。
実験の結果,下層が下流のタスク性能を維持する上で最も重要であること,(ii)パラフレーズ検出や文類似性などのタスクは,レイヤの降下に対してより堅牢であること,(iii)異なる目的関数を用いてトレーニングされたモデルが異なる学習パターンを示し,レイヤが低下すること,などの興味深い観察結果が得られた。
論文 参考訳(メタデータ) (2020-04-08T07:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。