論文の概要: Learning Capacity: A Measure of the Effective Dimensionality of a Model
- arxiv url: http://arxiv.org/abs/2305.17332v1
- Date: Sat, 27 May 2023 02:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:13:16.135599
- Title: Learning Capacity: A Measure of the Effective Dimensionality of a Model
- Title(参考訳): 学習能力:モデルの効果的な次元の尺度
- Authors: Daiwei Chen, Weikai Chang, Pratik Chaudhari
- Abstract要約: モデルの有効次元の尺度である「学習能力」を定義する。
学習能力は、典型的なデータセットでトレーニングされた多くのディープネットワークのパラメータのごく一部であることを示す。
- 参考スコア(独自算出の注目度): 16.225020457496434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We exploit a formal correspondence between thermodynamics and inference,
where the number of samples can be thought of as the inverse temperature, to
define a "learning capacity'' which is a measure of the effective
dimensionality of a model. We show that the learning capacity is a tiny
fraction of the number of parameters for many deep networks trained on typical
datasets, depends upon the number of samples used for training, and is
numerically consistent with notions of capacity obtained from the PAC-Bayesian
framework. The test error as a function of the learning capacity does not
exhibit double descent. We show that the learning capacity of a model saturates
at very small and very large sample sizes; this provides guidelines, as to
whether one should procure more data or whether one should search for new
architectures, to improve performance. We show how the learning capacity can be
used to understand the effective dimensionality, even for non-parametric models
such as random forests and $k$-nearest neighbor classifiers.
- Abstract(参考訳): 熱力学と推論の形式的対応を用いて,試料数を逆温度と考えることができ,モデルの有効次元の尺度である「学習能力」を定義する。
学習能力は、典型的なデータセットに基づいてトレーニングされた多くのディープネットワークのパラメータのごく一部であり、トレーニングに使用されるサンプルの数に依存し、PAC-Bayesianフレームワークから得られたキャパシティの概念と数値的に一致していることを示す。
学習能力の関数としての試験誤差は二重降下を示しない。
モデルの学習能力は、非常に小さく、非常に大きなサンプルサイズで飽和していることを示し、より多くのデータを取得するべきか、新しいアーキテクチャを探すべきか、パフォーマンスを改善するためのガイドラインを提供する。
ランダム森林や$k$-nearestといった非パラメトリックモデルにおいても,学習能力が有効次元の理解にどのように利用できるかを示す。
関連論文リスト
- Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Siamese Networks for Weakly Supervised Human Activity Recognition [2.398608007786179]
本稿では,データサンプルの類似性に関する情報のみを用いて,明示的なラベルを知らずに学習した複数のシアムネットワークを用いたモデルを提案する。
トレーニングされたモデルは、アクティビティデータサンプルを、表現空間内のベクトル間の距離が入力空間内のデータサンプルの類似性を近似するように、固定サイズ表現ベクトルにマッピングする。
本研究では,連続した人間の活動系列のセグメンテーションと認識において,その有効性を検証するために,3つのデータセット上でモデルを評価した。
論文 参考訳(メタデータ) (2023-07-18T03:23:34Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Learning new physics efficiently with nonparametric methods [11.970219534238444]
モデルに依存しない新しい物理探索のための機械学習手法を提案する。
対応するアルゴリズムは、最近のカーネルメソッドの大規模実装によって実現されている。
トレーニング時間や計算資源の観点から、ニューラルネットワークの実装と比較して、我々のアプローチは劇的なアドバンテージがあることが示される。
論文 参考訳(メタデータ) (2022-04-05T16:17:59Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。