論文の概要: Neural Scaling Laws for Deep Regression
- arxiv url: http://arxiv.org/abs/2509.10000v1
- Date: Fri, 12 Sep 2025 06:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.994878
- Title: Neural Scaling Laws for Deep Regression
- Title(参考訳): 深部回帰のためのニューラルスケーリング法則
- Authors: Tilen Cadez, Kyoung-Min Kim,
- Abstract要約: ファンデルワールス磁石のパラメータ推定モデルを用いて, ディープレグレッションにおけるニューラルスケーリング法則を実験的に検討した。
我々は、損失とトレーニングデータセットのサイズ、および幅広い値にわたるモデルのキャパシティの双方の関係を観察する。
一貫性のあるスケーリング挙動とその大規模なスケーリング指数は、深部回帰モデルの性能がデータサイズの増加とともに大幅に改善できることを示唆している。
- 参考スコア(独自算出の注目度): 0.7305019142196582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws--power-law relationships between generalization errors and characteristics of deep learning models--are vital tools for developing reliable models while managing limited resources. Although the success of large language models highlights the importance of these laws, their application to deep regression models remains largely unexplored. Here, we empirically investigate neural scaling laws in deep regression using a parameter estimation model for twisted van der Waals magnets. We observe power-law relationships between the loss and both training dataset size and model capacity across a wide range of values, employing various architectures--including fully connected networks, residual networks, and vision transformers. Furthermore, the scaling exponents governing these relationships range from 1 to 2, with specific values depending on the regressed parameters and model details. The consistent scaling behaviors and their large scaling exponents suggest that the performance of deep regression models can improve substantially with increasing data size.
- Abstract(参考訳): ニューラルネットワークのスケーリング法則 - 一般化エラーとディープラーニングモデルの特徴の関係 - は、限られたリソースを管理しながら信頼性の高いモデルを開発する上で重要なツールである。
大規模言語モデルの成功はこれらの法則の重要性を強調しているが、深部回帰モデルへの応用は未解明のままである。
本稿では, ねじれファンデルワールス磁石のパラメータ推定モデルを用いて, ディープレグレッションにおけるニューラルスケーリング法則を実験的に検討する。
トレーニングデータセットサイズとモデルキャパシティの損失との間には,さまざまなアーキテクチャ – 完全接続ネットワーク,残差ネットワーク,ビジョントランスフォーマーなど – が関係している。
さらに、これらの関係を管理するスケーリング指数は、回帰パラメータやモデルの詳細に依存する特定の値を持つ1から2まで様々である。
一貫性のあるスケーリング挙動とその大規模なスケーリング指数は、深部回帰モデルの性能がデータサイズの増加とともに大幅に改善できることを示唆している。
関連論文リスト
- Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Unified Neural Network Scaling Laws and Scale-time Equivalence [10.918504301310753]
本稿では、モデルサイズ、トレーニング時間、データボリュームの3つの要因がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。
まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。
次に、スケール時間同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。
論文 参考訳(メタデータ) (2024-09-09T16:45:26Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。
本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。