Fugu-MT 論文翻訳(概要): Learning Capacity: A Measure of the Effective Dimensionality of a Model

論文の概要: Learning Capacity: A Measure of the Effective Dimensionality of a Model

arxiv url: http://arxiv.org/abs/2305.17332v1
Date: Sat, 27 May 2023 02:27:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 20:13:16.135599
Title: Learning Capacity: A Measure of the Effective Dimensionality of a Model
Title（参考訳）: 学習能力:モデルの効果的な次元の尺度
Authors: Daiwei Chen, Weikai Chang, Pratik Chaudhari
Abstract要約: モデルの有効次元の尺度である「学習能力」を定義する。学習能力は、典型的なデータセットでトレーニングされた多くのディープネットワークのパラメータのごく一部であることを示す。
参考スコア（独自算出の注目度）: 16.225020457496434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We exploit a formal correspondence between thermodynamics and inference, where the number of samples can be thought of as the inverse temperature, to define a "learning capacity'' which is a measure of the effective dimensionality of a model. We show that the learning capacity is a tiny fraction of the number of parameters for many deep networks trained on typical datasets, depends upon the number of samples used for training, and is numerically consistent with notions of capacity obtained from the PAC-Bayesian framework. The test error as a function of the learning capacity does not exhibit double descent. We show that the learning capacity of a model saturates at very small and very large sample sizes; this provides guidelines, as to whether one should procure more data or whether one should search for new architectures, to improve performance. We show how the learning capacity can be used to understand the effective dimensionality, even for non-parametric models such as random forests and $k$-nearest neighbor classifiers.
Abstract（参考訳）: 熱力学と推論の形式的対応を用いて,試料数を逆温度と考えることができ,モデルの有効次元の尺度である「学習能力」を定義する。学習能力は、典型的なデータセットに基づいてトレーニングされた多くのディープネットワークのパラメータのごく一部であり、トレーニングに使用されるサンプルの数に依存し、PAC-Bayesianフレームワークから得られたキャパシティの概念と数値的に一致していることを示す。学習能力の関数としての試験誤差は二重降下を示しない。モデルの学習能力は、非常に小さく、非常に大きなサンプルサイズで飽和していることを示し、より多くのデータを取得するべきか、新しいアーキテクチャを探すべきか、パフォーマンスを改善するためのガイドラインを提供する。ランダム森林や$k$-nearestといった非パラメトリックモデルにおいても,学習能力が有効次元の理解にどのように利用できるかを示す。

関連論文リスト

Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文参考訳（メタデータ） (2024-02-16T04:32:22Z)
Stabilizing Subject Transfer in EEG Classification with Divergence Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文参考訳（メタデータ） (2023-10-12T23:06:52Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Optimal Learners for Realizable Regression: PAC Learning and Online Learning [52.37726841759983]
本研究では,PAC学習環境とオンライン学習環境の両方において,実現可能な回帰の統計的複雑さを特徴付けることを目的とする。まず,再現可能な回帰のためのミニマックスインスタンス最適学習器を導入し,実数値予測器のどのクラスが学習可能であるかを質的かつ定量的に特徴付ける新しい次元を提案する。オンライン学習の文脈では、最小の最適インスタンス最適累積損失を一定要素まで特徴付ける次元を提供し、再現可能な回帰のための最適オンライン学習者を設計する。
論文参考訳（メタデータ） (2023-07-07T21:39:25Z)
Learning Likelihood Ratios with Neural Network Classifiers [0.12277343096128711]
確率比の近似は、ニューラルネットワークベースの分類器の巧妙なパラメトリゼーションを用いて計算することができる。本稿では、いくつかの共通損失関数の性能と分類器出力のパラメトリゼーションを詳述した一連の実証研究について述べる。
論文参考訳（メタデータ） (2023-05-17T18:11:38Z)
Semiparametric Language Models Are Scalable Continual Learners [83.74414880208334]
セミパラメトリック言語モデル(LM)は、新しいテキストデータから継続的に学習する上で有望であることを示す。 Selective Memorization(SeMem)と呼ばれるシンプルで直感的なアプローチを提案する。 SeMemは、モデルが苦労する可能性のある難しいサンプルのみを記憶している。
論文参考訳（メタデータ） (2023-03-02T17:15:02Z)
Pairwise Learning via Stagewise Training in Proximal Setting [0.0]
非平滑凸対損失関数の収束保証と、適応的なサンプルサイズとペアワイズ学習のための重要サンプリング手法を組み合わせる。それぞれに逆のインスタンスをサンプリングすると勾配の分散が減少し、収束が加速することを示した。
論文参考訳（メタデータ） (2022-08-08T11:51:01Z)
Scalable approach to many-body localization via quantum data [69.3939291118954]
多体局在は、量子多体物理学の非常に難しい現象である。計算コストの高いステップを回避できるフレキシブルニューラルネットワークベースの学習手法を提案する。我々のアプローチは、量子多体物理学の新たな洞察を提供するために、大規模な量子実験に適用することができる。
論文参考訳（メタデータ） (2022-02-17T19:00:09Z)
A Theoretical-Empirical Approach to Estimating Sample Complexity of DNNs [11.152761263415046]
本稿では,深層ニューラルネットワーク(DNN)のトレーニングデータ量と一般化誤差のスケールについて考察する。我々は、ディープネットワークに保持され、到達不能な容量尺度に依存しない一般化誤差の推定を導出する。
論文参考訳（メタデータ） (2021-05-05T05:14:08Z)
Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。線形化ネットワークを用いてこれらの量の効率的な近似を行う。本稿では,データセットの要約など,いくつかの問題に適用する。
論文参考訳（メタデータ） (2021-01-17T10:29:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。