論文の概要: An exactly solvable model for emergence and scaling laws
- arxiv url: http://arxiv.org/abs/2404.17563v1
- Date: Fri, 26 Apr 2024 17:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:25:41.791630
- Title: An exactly solvable model for emergence and scaling laws
- Title(参考訳): 出現法則とスケーリング法則を正確に解けるモデル
- Authors: Yoonsoo Nam, Nayara Fonseca, Seok Hyeong Lee, Ard Louis,
- Abstract要約: 本稿では,新たな能力(スキル)を基礎関数として表現するフレームワークを提案する。
新たなスキルの出現と、トレーニング時間、データサイズ、モデルサイズ、最適計算による損失の法則のスケーリングに関する分析式を見つける。
私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。
- 参考スコア(独自算出の注目度): 0.4499833362998489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models can exhibit what appears to be a sudden ability to solve a new problem as training time ($T$), training data ($D$), or model size ($N$) increases, a phenomenon known as emergence. In this paper, we present a framework where each new ability (a skill) is represented as a basis function. We solve a simple multi-linear model in this skill-basis, finding analytic expressions for the emergence of new skills, as well as for scaling laws of the loss with training time, data size, model size, and optimal compute ($C$). We compare our detailed calculations to direct simulations of a two-layer neural network trained on multitask sparse parity, where the tasks in the dataset are distributed according to a power-law. Our simple model captures, using a single fit parameter, the sigmoidal emergence of multiple new skills as training time, data size or model size increases in the neural network.
- Abstract(参考訳): ディープラーニングモデルは、トレーニング時間(T$)、トレーニングデータ(D$)、モデルサイズ(N$)が増加するにつれて、新しい問題を解決する突然の能力を示す。
本稿では,新たな能力(スキル)を基礎関数として表現する枠組みを提案する。
このスキルベイジでは,新たなスキルの出現に関する解析式と,トレーニング時間,データサイズ,モデルサイズ,最適計算(C$)による損失の法則のスケーリングという,シンプルなマルチ線形モデルを解く。
我々は、詳細な計算結果をマルチタスクスパースパリティに基づいてトレーニングされた2層ニューラルネットワークの直接シミュレーションと比較する。
私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。
関連論文リスト
- Provable unlearning in topic modeling and downstream tasks [36.571324268874264]
アンラーニングの保証は、しばしば教師付き学習設定に限られる。
我々は、事前学習と微調整のパラダイムにおいて、初となるアンラーニングの理論的保証を提供する。
我々は、特定のタスクに微調整されたモデルから事前学習データを容易に解放できることを示し、ベースモデルを変更することなく、このデータを解放できることを示した。
論文 参考訳(メタデータ) (2024-11-19T16:04:31Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Neural Network Retraining for Model Serving [32.857847595096025]
我々は、推論における新しいデータの継続的な流れに対応するために、ニューラルネットワークモデルの漸進的(再)トレーニングを提案する。
破滅的な再トレーニングと効率的な再トレーニングの2つの課題に対処する。
論文 参考訳(メタデータ) (2020-04-29T13:52:28Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。