論文の概要: How Feature Learning Can Improve Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2409.17858v1
- Date: Thu, 26 Sep 2024 14:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 18:44:56.986783
- Title: How Feature Learning Can Improve Neural Scaling Laws
- Title(参考訳): 機能学習がニューラルスケーリング法則をどのように改善するか
- Authors: Blake Bordelon, Alexander Atanasov, Cengiz Pehlevan
- Abstract要約: 我々は,カーネル限界を超えたニューラルスケーリング法則の解法モデルを開発する。
モデルのサイズ、トレーニング時間、利用可能なデータの総量によるパフォーマンスのスケールアップ方法を示す。
- 参考スコア(独自算出の注目度): 86.9540615081759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a solvable model of neural scaling laws beyond the kernel limit.
Theoretical analysis of this model shows how performance scales with model
size, training time, and the total amount of available data. We identify three
scaling regimes corresponding to varying task difficulties: hard, easy, and
super easy tasks. For easy and super-easy target functions, which lie in the
reproducing kernel Hilbert space (RKHS) defined by the initial infinite-width
Neural Tangent Kernel (NTK), the scaling exponents remain unchanged between
feature learning and kernel regime models. For hard tasks, defined as those
outside the RKHS of the initial NTK, we demonstrate both analytically and
empirically that feature learning can improve scaling with training time and
compute, nearly doubling the exponent for hard tasks. This leads to a different
compute optimal strategy to scale parameters and training time in the feature
learning regime. We support our finding that feature learning improves the
scaling law for hard tasks but not for easy and super-easy tasks with
experiments of nonlinear MLPs fitting functions with power-law Fourier spectra
on the circle and CNNs learning vision tasks.
- Abstract(参考訳): 我々は,カーネル限界を超えたニューラルスケーリング法則の解法モデルを開発する。
このモデルの理論的分析は、モデルのサイズ、トレーニング時間、利用可能なデータの総量によるパフォーマンスのスケール方法を示している。
難易度・易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度の3つのスケーリング体制を同定する。
初期無限幅ニューラルタンジェントカーネル (NTK) で定義される再生カーネルヒルベルト空間 (RKHS) にある、簡単で超容易なターゲット関数の場合、スケーリング指数は特徴学習とカーネル構造モデルの間で変化しない。
最初のNTKのRKHS外として定義されたハードタスクに対しては、機能学習がトレーニング時間と計算時間でスケーリングを改善し、ハードタスクの指数をほぼ2倍にすることで、分析的および経験的に機能学習が可能であることを実証する。
これにより、特徴学習体制におけるパラメータとトレーニング時間をスケールするための異なる計算的最適戦略が導かれる。
我々は,機能学習がハードタスクのスケーリング法則を改善することを支援するが,非線型MLPと円周上のパワーローフーリエスペクトルとCNNの学習視覚タスクを併用した実験により,簡単かつ超容易なタスクには適用できないことを発見した。
関連論文リスト
- Trainability, Expressivity and Interpretability in Gated Neural ODEs [0.0]
本稿では,ニューラルネットワークのキャパシティを探索して複雑なトラジェクトリを生成する,表現性の新たな尺度を提案する。
本研究は,低次元のgnODEがモデリング能力を保ちながら,解釈可能性を大幅に向上することを示す。
また,複数の実世界のタスクにおいて,NODEにおけるゲーティングの利点を示す。
論文 参考訳(メタデータ) (2023-07-12T18:29:01Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - TKIL: Tangent Kernel Approach for Class Balanced Incremental Learning [4.822598110892847]
クラスインクリメンタルな学習方法は、いくつかの経験者の記憶を以前に学んだタスクから守り、そこから知識を抽出することを目的としている。
既存のメソッドは、モデルが最新のタスクに過度に適合するため、クラス間でのパフォーマンスのバランスをとるのに苦労しています。
本稿では,TKIL(Tangent Kernel for Incremental Learning)の新たな手法を提案する。
論文 参考訳(メタデータ) (2022-06-17T00:20:54Z) - Semi-Parametric Inducing Point Networks and Neural Processes [15.948270454686197]
半パラメトリック誘導点ネットワーク(SPIN)は、推論時間におけるトレーニングセットを計算効率よくクエリすることができる。
SPINは、ポイントメソッドにインスパイアされたデータポイント間のクロスアテンションメカニズムを通じて、線形複雑性を実現する。
実験では,SPINはメモリ要件を低減し,様々なメタラーニングタスクの精度を向上し,重要な実用的問題である遺伝子型計算における最先端性能を向上させる。
論文 参考訳(メタデータ) (2022-05-24T01:42:46Z) - NeuralEF: Deconstructing Kernels by Deep Neural Networks [47.54733625351363]
従来のNystr"om式に基づく非パラメトリックなソリューションはスケーラビリティの問題に悩まされる。
最近の研究はパラメトリックなアプローチ、すなわち固有関数を近似するためにニューラルネットワークを訓練している。
教師なしおよび教師なしの学習問題の空間に一般化する新たな目的関数を用いて,これらの問題を解くことができることを示す。
論文 参考訳(メタデータ) (2022-04-30T05:31:07Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - FG-Net: Fast Large-Scale LiDAR Point CloudsUnderstanding Network
Leveraging CorrelatedFeature Mining and Geometric-Aware Modelling [15.059508985699575]
FG-Netは、Voxelizationなしで大規模ポイントクラウドを理解するための一般的なディープラーニングフレームワークです。
相関型特徴マイニングと変形性畳み込みに基づく幾何認識モデルを用いた深層畳み込みニューラルネットワークを提案する。
我々のアプローチは精度と効率の点で最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2020-12-17T08:20:09Z) - Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文 参考訳(メタデータ) (2020-10-08T07:02:47Z) - Learning to Learn Kernels with Variational Random Features [118.09565227041844]
メタラーニングフレームワークにランダムなフーリエ機能を持つカーネルを導入し、その強力な数ショット学習能力を活用する。
変分推論問題としてメタVRFの最適化を定式化する。
MetaVRFは、既存のメタ学習方法に比べて、はるかに優れた、少なくとも競争力のあるパフォーマンスを提供します。
論文 参考訳(メタデータ) (2020-06-11T18:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。