論文の概要: Learning Capacity: A Measure of the Effective Dimensionality of a Model
- arxiv url: http://arxiv.org/abs/2305.17332v2
- Date: Sun, 20 Oct 2024 17:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:21.125137
- Title: Learning Capacity: A Measure of the Effective Dimensionality of a Model
- Title(参考訳): 学習能力:モデルの有効次元の測定
- Authors: Daiwei Chen, Wei-Kai Chang, Pratik Chaudhari,
- Abstract要約: モデルの有効次元の尺度である「学習能力」と呼ばれる量について検討する。
学習能力は、(a)テスト損失と相関し、典型的なデータセットでトレーニングされた多くのディープネットワークのパラメータのごく一部であるため、複雑さの有用な概念であることを示す。
- 参考スコア(独自算出の注目度): 18.48866194756127
- License:
- Abstract: We use a formal correspondence between thermodynamics and inference, where the number of samples can be thought of as the inverse temperature, to study a quantity called ``learning capacity'' which is a measure of the effective dimensionality of a model. We show that the learning capacity is a useful notion of the complexity because (a) it correlates well with the test loss and it is a tiny fraction of the number of parameters for many deep networks trained on typical datasets, (b) it depends upon the number of samples used for training, (c) it is numerically consistent with notions of capacity obtained from PAC-Bayes generalization bounds, and (d) the test loss as a function of the learning capacity does not exhibit double descent. We show that the learning capacity saturates at very small and very large sample sizes; the threshold that characterizes the transition between these two regimes provides guidelines as to when one should procure more data and when one should search for a different architecture to improve performance. We show how the learning capacity can be used to provide a quantitative notion of capacity even for non-parametric models such as random forests and nearest neighbor classifiers.
- Abstract(参考訳): 熱力学と推論の正式な対応式を用いて、サンプルの個数を逆温度とみなすことができ、モデルの有効次元の尺度である「学習能力」と呼ばれる量を研究する。
学習能力は複雑さの有用な概念であることを示す。
(a)テスト損失と相関し、典型的なデータセットでトレーニングされた多くのディープネットワークのパラメータ数のごく一部である。
(b)訓練に使用するサンプルの数によって異なる。
(c)PAC-ベイズ一般化境界から得られる容量の概念と数値的に一致し、
(d)学習能力の関数としての試験損失は二重降下を示さない。
学習能力は非常に小さく、非常に大きなサンプルサイズで飽和していることを示し、これらの2つの状態間の遷移を特徴付ける閾値は、いつより多くのデータを取得するべきか、いつ異なるアーキテクチャを探索してパフォーマンスを向上させるべきかというガイドラインを提供する。
ランダムな森林や近隣の分類器のような非パラメトリックモデルに対しても,学習能力を用いてキャパシティを定量的に定義する方法を示す。
関連論文リスト
- An exactly solvable model for emergence and scaling laws [2.598133279943607]
本稿では,新たな能力(スキル)を基礎関数として表現するフレームワークを提案する。
新たなスキルの出現と、トレーニング時間、データサイズ、モデルサイズ、最適計算による損失の法則のスケーリングに関する分析式を見つける。
私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。
論文 参考訳(メタデータ) (2024-04-26T17:45:32Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Siamese Networks for Weakly Supervised Human Activity Recognition [2.398608007786179]
本稿では,データサンプルの類似性に関する情報のみを用いて,明示的なラベルを知らずに学習した複数のシアムネットワークを用いたモデルを提案する。
トレーニングされたモデルは、アクティビティデータサンプルを、表現空間内のベクトル間の距離が入力空間内のデータサンプルの類似性を近似するように、固定サイズ表現ベクトルにマッピングする。
本研究では,連続した人間の活動系列のセグメンテーションと認識において,その有効性を検証するために,3つのデータセット上でモデルを評価した。
論文 参考訳(メタデータ) (2023-07-18T03:23:34Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Learning new physics efficiently with nonparametric methods [11.970219534238444]
モデルに依存しない新しい物理探索のための機械学習手法を提案する。
対応するアルゴリズムは、最近のカーネルメソッドの大規模実装によって実現されている。
トレーニング時間や計算資源の観点から、ニューラルネットワークの実装と比較して、我々のアプローチは劇的なアドバンテージがあることが示される。
論文 参考訳(メタデータ) (2022-04-05T16:17:59Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。