論文の概要: Scaling Laws for Uncertainty in Deep Learning
- arxiv url: http://arxiv.org/abs/2506.09648v1
- Date: Wed, 11 Jun 2025 12:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.92601
- Title: Scaling Laws for Uncertainty in Deep Learning
- Title(参考訳): ディープラーニングにおける不確実性のためのスケーリング法則
- Authors: Mattia Rosso, Simone Rossi, Giulio Franzese, Markus Heinonen, Maurizio Filippone,
- Abstract要約: 本稿では,データセットやモデルサイズに関して,予測の不確実性の様々な尺度に関連するスケーリング法の存在を示す。
この研究は、ベイズ的アプローチに対して繰り返される懐疑主義を追放する強力な証拠を提供する。
- 参考スコア(独自算出の注目度): 18.87399857008617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has recently revealed the existence of scaling laws, demonstrating that model performance follows predictable trends based on dataset and model sizes. Inspired by these findings and fascinating phenomena emerging in the over-parameterized regime, we examine a parallel direction: do similar scaling laws govern predictive uncertainties in deep learning? In identifiable parametric models, such scaling laws can be derived in a straightforward manner by treating model parameters in a Bayesian way. In this case, for example, we obtain $O(1/N)$ contraction rates for epistemic uncertainty with respect to the number of data $N$. However, in over-parameterized models, these guarantees do not hold, leading to largely unexplored behaviors. In this work, we empirically show the existence of scaling laws associated with various measures of predictive uncertainty with respect to dataset and model sizes. Through experiments on vision and language tasks, we observe such scaling laws for in- and out-of-distribution predictive uncertainty estimated through popular approximate Bayesian inference and ensemble methods. Besides the elegance of scaling laws and the practical utility of extrapolating uncertainties to larger data or models, this work provides strong evidence to dispel recurring skepticism against Bayesian approaches: "In many applications of deep learning we have so much data available: what do we need Bayes for?". Our findings show that "so much data" is typically not enough to make epistemic uncertainty negligible.
- Abstract(参考訳): ディープラーニングは最近、スケーリング法則の存在を明らかにし、モデルパフォーマンスがデータセットとモデルサイズに基づいた予測可能なトレンドに従うことを示した。
これらの発見や、過度にパラメータ化された体制に現れる驚くべき現象に触発されて、同様のスケーリング法則がディープラーニングにおける予測の不確実性を規定しているか、という、平行な方向を考察する。
同定可能なパラメトリックモデルでは、そのようなスケーリング法則はベイズ的方法でモデルパラメータを扱い、直接的に導出することができる。
この場合、例えば、データ数に関して、てんかん不確実性に対して$O(1/N)$収縮率を得る。
しかし、過度にパラメータ化されたモデルでは、これらの保証は保たず、ほとんど探索されていない振る舞いをもたらす。
本研究では,データセットやモデルサイズに関して,予測の不確実性の様々な尺度に関連するスケーリング法則の存在を実証的に示す。
視覚と言語タスクの実験を通じて,ベイズ近似とアンサンブル法を用いて推定される分布内および分布外予測の不確実性について,そのようなスケーリング法則を観察する。
スケーリング法則のエレガンスさと、より大きなデータやモデルに不確実性を外挿する実用性に加えて、この研究はベイズ的アプローチに対する繰り返し懐疑論を退ける強力な証拠を与えている。
以上の結果から,「非常に多くのデータ」はてんかんの不確実性を無視するには不十分であることが示唆された。
関連論文リスト
- Bayesian Neural Scaling Law Extrapolation with Prior-Fitted Networks [100.13335639780415]
スケーリング法則は、しばしばパワーローに従っており、より大きなスケールでのスケーリングの振る舞いを予測するために、パワーロー関数のいくつかの変種を提案した。
既存の手法は主に点推定に依存しており、現実のアプリケーションにとって欠かせない不確実性を定量化しない。
本研究では,ニューラルスケーリング法外挿のためのPFNに基づくベイズフレームワークについて検討する。
論文 参考訳(メタデータ) (2025-05-29T03:19:17Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。