論文の概要: A Resource Model For Neural Scaling Law
- arxiv url: http://arxiv.org/abs/2402.05164v1
- Date: Wed, 7 Feb 2024 18:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:47:00.535582
- Title: A Resource Model For Neural Scaling Law
- Title(参考訳): ニューラルスケーリング則のための資源モデル
- Authors: Jinyeop Song, Ziming Liu, Max Tegmark, Jeff Gore
- Abstract要約: 一般的な複合タスクに対するニューラルスケーリング法則を予測するモデルを構築した。
この論文で使用されるリソースの概念は、ニューラルネットワークの特徴付けと診断に有用なツールになるだろうと考えています。
- 参考スコア(独自算出の注目度): 15.01642959193149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws characterize how model performance improves as the model
size scales up. Inspired by empirical observations, we introduce a resource
model of neural scaling. A task is usually composite hence can be decomposed
into many subtasks, which compete for resources (measured by the number of
neurons allocated to subtasks). On toy problems, we empirically find that: (1)
The loss of a subtask is inversely proportional to its allocated neurons. (2)
When multiple subtasks are present in a composite task, the resources acquired
by each subtask uniformly grow as models get larger, keeping the ratios of
acquired resources constants. We hypothesize these findings to be generally
true and build a model to predict neural scaling laws for general composite
tasks, which successfully replicates the neural scaling law of Chinchilla
models reported in arXiv:2203.15556. We believe that the notion of resource
used in this paper will be a useful tool for characterizing and diagnosing
neural networks.
- Abstract(参考訳): ニューラルスケーリング法則は、モデルサイズがスケールアップするにつれて、モデルパフォーマンスがどのように向上するかを特徴付ける。
経験的観察にインスパイアされた我々は,ニューラルスケーリングの資源モデルを導入する。
タスクは通常複合化されるため、多くのサブタスクに分解され、リソースを競う(サブタスクに割り当てられたニューロンの数によって測定される)。
1)サブタスクの損失は、その割り当てられたニューロンに逆比例する。
2) 複合タスクに複数のサブタスクが存在する場合,各サブタスクが獲得したリソースはモデルが大きくなるにつれて一様に増加し,獲得したリソースの比率は一定となる。
これらの結果は一般に真実であると仮定し、一般的な複合タスクの神経スケーリング法則を予測するモデルを構築し、arXiv:2203.15556で報告されたチンチラモデルの神経スケーリング法則を再現することに成功した。
本稿では、ニューラルネットワークを特徴付け、診断するための有用なツールとして、リソースの概念を提案する。
関連論文リスト
- Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - An exactly solvable model for emergence and scaling laws in the multitask sparse parity problem [2.598133279943607]
本稿では,新たな能力(スキル)を基礎関数として表現するフレームワークを提案する。
新たなスキルの出現と、トレーニング時間、データサイズ、モデルサイズ、最適計算による損失の法則のスケーリングに関する分析式を見つける。
私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。
論文 参考訳(メタデータ) (2024-04-26T17:45:32Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - Neural population geometry and optimal coding of tasks with shared latent structure [4.490493754303233]
4つの幾何学的測度がタスク間の性能を決定することを示す。
マルチタスク学習問題に対する最適解として,実験的に観察された不整合表現が自然に現れることがわかった。
論文 参考訳(メタデータ) (2024-02-26T17:39:23Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Neural Dependencies Emerging from Learning Massive Categories [94.77992221690742]
この研究は、大規模画像分類のために学んだニューラルネットワークに関する2つの驚くべき発見を示す。
1) 十分に訓練されたモデルが与えられた場合、いくつかのカテゴリで予測されたロジットは、他のいくつかのカテゴリの予測を線形に組み合わせることで直接得ることができる。
2) 神経依存は1つのモデルに留まらず、2つの独立した学習モデルの間にさえ存在する。
論文 参考訳(メタデータ) (2022-11-21T09:42:15Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。