論文の概要: EvoSLD: Automated Neural Scaling Law Discovery With Large Language Models
- arxiv url: http://arxiv.org/abs/2507.21184v1
- Date: Sun, 27 Jul 2025 05:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.052406
- Title: EvoSLD: Automated Neural Scaling Law Discovery With Large Language Models
- Title(参考訳): EvoSLD: 大規模言語モデルによるニューラルスケーリング法発見を自動化する
- Authors: Haowei Lin, Xiangyu Wang, Jianzhu Ma, Yitao Liang,
- Abstract要約: スケーリング法則は、ニューラルネットワークのパフォーマンスの進化を予測する基本的な数学的関係である。
本稿では,Scaling Law Discoveryの自動化フレームワークであるEvoSLDを紹介する。
EvoSLDは、グループ化されたデータサブセットへの適合エラーを最小限に抑える、同義で普遍的な機能形式を探索する。
- 参考スコア(独自算出の注目度): 18.7274903344248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws are fundamental mathematical relationships that predict how neural network performance evolves with changes in variables such as model size, dataset size, and computational resources. Traditionally, discovering these laws requires extensive human expertise and manual experimentation. We introduce EvoSLD, an automated framework for Scaling Law Discovery (SLD) that leverages evolutionary algorithms guided by Large Language Models (LLMs) to co-evolve symbolic expressions and their optimization routines. Formulated to handle scaling variables, control variables, and response metrics across diverse experimental settings, EvoSLD searches for parsimonious, universal functional forms that minimize fitting errors on grouped data subsets. Evaluated on five real-world scenarios from recent literature, EvoSLD rediscovers exact human-derived laws in two cases and surpasses them in others, achieving up to orders-of-magnitude reductions in normalized mean squared error on held-out test sets. Compared to baselines like symbolic regression and ablated variants, EvoSLD demonstrates superior accuracy, interpretability, and efficiency, highlighting its potential to accelerate AI research. Code is available at https://github.com/linhaowei1/SLD.
- Abstract(参考訳): スケーリング法則は、モデルサイズ、データセットサイズ、計算資源などの変数の変化とともに、ニューラルネットワークのパフォーマンスがどのように進化するかを予測する基本的な数学的関係である。
伝統的に、これらの法則を発見するには、広範な人間の専門知識と手動の実験が必要である。
本稿では,Large Language Models (LLM) によって導かれる進化的アルゴリズムを利用して,記号表現とその最適化ルーチンを共進化させる,SLD(Scaling Law Discovery)の自動フレームワークであるEvoSLDを紹介する。
EvoSLDは、様々な実験的な設定でスケール変数、制御変数、レスポンスメトリクスを扱うために開発されたもので、グループ化されたデータサブセットの適合エラーを最小限に抑える、同義で普遍的な機能形式を探索する。
最近の文献から5つの実世界のシナリオを評価すると、EvoSLDは2つのケースで人間由来の法則を正確に適用し、他のケースを上回り、ホールドアウトテストセットにおける正規化平均二乗誤差のオーダー・オブ・マグニチュード削減を達成している。
EvoSLDはシンボリック回帰や短縮変形といったベースラインと比較して、精度、解釈可能性、効率性が優れており、AI研究を加速する可能性を強調している。
コードはhttps://github.com/linhaowei1/SLDで公開されている。
関連論文リスト
- Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - Neural Scaling Laws Rooted in the Data Distribution [0.0]
ディープニューラルネットワークは経験的なニューラルスケーリング法則を示し、誤差はモデルやデータサイズの増加とともにパワー法則として減少する。
パーコレーション理論を用いて,自然データセットを記述する数学的モデルを構築した。
パーコレーション理論シミュレーションから導かれたおもちゃのデータセット上で回帰モデルを訓練して理論を検証した。
論文 参考訳(メタデータ) (2024-12-10T22:01:38Z) - Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。
本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。
多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文 参考訳(メタデータ) (2024-11-11T01:05:28Z) - Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - A Tale of Tails: Model Collapse as a Change of Scaling Laws [11.6055501181235]
私たちは、合成データがトレーニングコーパスに導入される必然的な体制において、スケーリング法はどのように変化するのか?
スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。
我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。
論文 参考訳(メタデータ) (2024-02-10T21:06:34Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。