Fugu-MT 論文翻訳(概要): Learning Capacity: A Measure of the Effective Dimensionality of a Model

論文の概要: Learning Capacity: A Measure of the Effective Dimensionality of a Model

arxiv url: http://arxiv.org/abs/2305.17332v2
Date: Sun, 20 Oct 2024 17:11:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.921887
Title: Learning Capacity: A Measure of the Effective Dimensionality of a Model
Title（参考訳）: 学習能力:モデルの有効次元の測定
Authors: Daiwei Chen, Wei-Kai Chang, Pratik Chaudhari,
Abstract要約: モデルの有効次元の尺度である「学習能力」と呼ばれる量について検討する。学習能力は、(a)テスト損失と相関し、典型的なデータセットでトレーニングされた多くのディープネットワークのパラメータのごく一部であるため、複雑さの有用な概念であることを示す。
参考スコア（独自算出の注目度）: 18.48866194756127
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We use a formal correspondence between thermodynamics and inference, where the number of samples can be thought of as the inverse temperature, to study a quantity called ``learning capacity'' which is a measure of the effective dimensionality of a model. We show that the learning capacity is a useful notion of the complexity because (a) it correlates well with the test loss and it is a tiny fraction of the number of parameters for many deep networks trained on typical datasets, (b) it depends upon the number of samples used for training, (c) it is numerically consistent with notions of capacity obtained from PAC-Bayes generalization bounds, and (d) the test loss as a function of the learning capacity does not exhibit double descent. We show that the learning capacity saturates at very small and very large sample sizes; the threshold that characterizes the transition between these two regimes provides guidelines as to when one should procure more data and when one should search for a different architecture to improve performance. We show how the learning capacity can be used to provide a quantitative notion of capacity even for non-parametric models such as random forests and nearest neighbor classifiers.
Abstract（参考訳）: 熱力学と推論の正式な対応式を用いて、サンプルの個数を逆温度とみなすことができ、モデルの有効次元の尺度である「学習能力」と呼ばれる量を研究する。学習能力は複雑さの有用な概念であることを示す。 (a)テスト損失と相関し、典型的なデータセットでトレーニングされた多くのディープネットワークのパラメータ数のごく一部である。 (b)訓練に使用するサンプルの数によって異なる。 (c)PAC-ベイズ一般化境界から得られる容量の概念と数値的に一致し、 (d)学習能力の関数としての試験損失は二重降下を示さない。学習能力は非常に小さく、非常に大きなサンプルサイズで飽和していることを示し、これらの2つの状態間の遷移を特徴付ける閾値は、いつより多くのデータを取得するべきか、いつ異なるアーキテクチャを探索してパフォーマンスを向上させるべきかというガイドラインを提供する。ランダムな森林や近隣の分類器のような非パラメトリックモデルに対しても,学習能力を用いてキャパシティを定量的に定義する方法を示す。

関連論文リスト

Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文参考訳（メタデータ） (2024-02-16T04:32:22Z)
Stabilizing Subject Transfer in EEG Classification with Divergence Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文参考訳（メタデータ） (2023-10-12T23:06:52Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Optimal Learners for Realizable Regression: PAC Learning and Online Learning [52.37726841759983]
本研究では,PAC学習環境とオンライン学習環境の両方において,実現可能な回帰の統計的複雑さを特徴付けることを目的とする。まず,再現可能な回帰のためのミニマックスインスタンス最適学習器を導入し,実数値予測器のどのクラスが学習可能であるかを質的かつ定量的に特徴付ける新しい次元を提案する。オンライン学習の文脈では、最小の最適インスタンス最適累積損失を一定要素まで特徴付ける次元を提供し、再現可能な回帰のための最適オンライン学習者を設計する。
論文参考訳（メタデータ） (2023-07-07T21:39:25Z)
Learning Likelihood Ratios with Neural Network Classifiers [0.12277343096128711]
確率比の近似は、ニューラルネットワークベースの分類器の巧妙なパラメトリゼーションを用いて計算することができる。本稿では、いくつかの共通損失関数の性能と分類器出力のパラメトリゼーションを詳述した一連の実証研究について述べる。
論文参考訳（メタデータ） (2023-05-17T18:11:38Z)
Semiparametric Language Models Are Scalable Continual Learners [83.74414880208334]
セミパラメトリック言語モデル(LM)は、新しいテキストデータから継続的に学習する上で有望であることを示す。 Selective Memorization(SeMem)と呼ばれるシンプルで直感的なアプローチを提案する。 SeMemは、モデルが苦労する可能性のある難しいサンプルのみを記憶している。
論文参考訳（メタデータ） (2023-03-02T17:15:02Z)
Pairwise Learning via Stagewise Training in Proximal Setting [0.0]
非平滑凸対損失関数の収束保証と、適応的なサンプルサイズとペアワイズ学習のための重要サンプリング手法を組み合わせる。それぞれに逆のインスタンスをサンプリングすると勾配の分散が減少し、収束が加速することを示した。
論文参考訳（メタデータ） (2022-08-08T11:51:01Z)
Scalable approach to many-body localization via quantum data [69.3939291118954]
多体局在は、量子多体物理学の非常に難しい現象である。計算コストの高いステップを回避できるフレキシブルニューラルネットワークベースの学習手法を提案する。我々のアプローチは、量子多体物理学の新たな洞察を提供するために、大規模な量子実験に適用することができる。
論文参考訳（メタデータ） (2022-02-17T19:00:09Z)
A Theoretical-Empirical Approach to Estimating Sample Complexity of DNNs [11.152761263415046]
本稿では,深層ニューラルネットワーク(DNN)のトレーニングデータ量と一般化誤差のスケールについて考察する。我々は、ディープネットワークに保持され、到達不能な容量尺度に依存しない一般化誤差の推定を導出する。
論文参考訳（メタデータ） (2021-05-05T05:14:08Z)
Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。線形化ネットワークを用いてこれらの量の効率的な近似を行う。本稿では,データセットの要約など,いくつかの問題に適用する。
論文参考訳（メタデータ） (2021-01-17T10:29:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。