論文の概要: Information theoretic limits of learning a sparse rule
- arxiv url: http://arxiv.org/abs/2006.11313v2
- Date: Tue, 27 Oct 2020 20:36:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:34:09.219894
- Title: Information theoretic limits of learning a sparse rule
- Title(参考訳): スパースルール学習における情報理論の限界
- Authors: Cl\'ement Luneau, Jean Barbier and Nicolas Macris
- Abstract要約: システムサイズが無限大に大きくなると,サンプルごとの相互情報の変動式が証明される。
このような信号と、疎度と消滅率の適切なスケーリングに対して、MMSEはピースワイズ定数が増加しないことがわかった。
一般化誤差に対するオール・オー・ナッシング現象を,訓練例のサブ線形集合を用いて論じる。
- 参考スコア(独自算出の注目度): 22.10167304165091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider generalized linear models in regimes where the number of nonzero
components of the signal and accessible data points are sublinear with respect
to the size of the signal. We prove a variational formula for the asymptotic
mutual information per sample when the system size grows to infinity. This
result allows us to derive an expression for the minimum mean-square error
(MMSE) of the Bayesian estimator when the signal entries have a discrete
distribution with finite support. We find that, for such signals and suitable
vanishing scalings of the sparsity and sampling rate, the MMSE is nonincreasing
piecewise constant. In specific instances the MMSE even displays an
all-or-nothing phase transition, that is, the MMSE sharply jumps from its
maximum value to zero at a critical sampling rate. The all-or-nothing
phenomenon has previously been shown to occur in high-dimensional linear
regression. Our analysis goes beyond the linear case and applies to learning
the weights of a perceptron with general activation function in a
teacher-student scenario. In particular, we discuss an all-or-nothing
phenomenon for the generalization error with a sublinear set of training
examples.
- Abstract(参考訳): 本研究では,信号の非零成分数とアクセス可能なデータ点数が信号のサイズに対して部分線型であるようなレジームにおける一般化線形モデルを考える。
システムサイズが無限に大きくなるとサンプル毎の漸近的相互情報に対する変分公式が証明される。
この結果、信号エントリが有限サポートを持つ離散分布を持つ場合、ベイズ推定器の最小平均二乗誤差(mmse)の式を導出することができる。
このような信号と、スパーシリティとサンプリングレートの適切な消去スケールに対して、MMSEはピースワイズ定数が増加しないことがわかった。
特定の場合において、MMSEは全または無の位相遷移(すなわち、MMSEは臨界サンプリングレートでその最大値から0に急上昇する)も表示する。
オール・オー・ナッシング現象は以前、高次元線形回帰において起こることが示されている。
本分析は線形の場合を超越し,教師・生徒シナリオにおける一般活性化関数を持つパーセプトロンの重み付け学習に適用する。
特に、一般化誤差に対するオール・オー・ナッシング現象を、訓練例のサブ線形集合を用いて論じる。
関連論文リスト
- Fundamental limits of Non-Linear Low-Rank Matrix Estimation [18.455890316339595]
ベイズ最適性能は、有効前のガウスモデルによって特徴づけられる。
信号を正確に再構成するためには、Nfrac 12 (1-1/k_F)$として増加する信号対雑音比が必要であり、$k_F$は関数の最初のゼロでないフィッシャー情報係数である。
論文 参考訳(メタデータ) (2024-03-07T05:26:52Z) - Max-affine regression via first-order methods [7.12511675782289]
最大アフィンモデルは信号処理と統計学の応用においてユビキタスに現れる。
最大アフィン回帰に対する勾配降下(GD)とミニバッチ勾配降下(SGD)の非漸近収束解析を行った。
論文 参考訳(メタデータ) (2023-08-15T23:46:44Z) - Mixed Regression via Approximate Message Passing [16.91276351457051]
複数の信号と潜伏変数を持つ一般化線形モデル(GLM)における回帰問題について検討する。
混合線形回帰では、それぞれの観測は$L$信号ベクトル(回帰器)の1つから来るが、どれがどれであるかはわからない。
最大アフィン回帰では、各観測は最大で$L$アフィン関数から成り、それぞれ異なる信号ベクトルによって定義される。
論文 参考訳(メタデータ) (2023-04-05T04:59:59Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - On maximum-likelihood estimation in the all-or-nothing regime [14.192301094399765]
解析はスパース設定で行われ、基礎となる信号は、次元の総数に対して部分線形にスケールする支持体を持つ。
Bernoulli分散信号の場合、MLEは、同じ問題における最小平均二乗誤差推定器(MMSE)のためにすでに確立されているEphall-or-nothing(AoN)相転移を受ける。
論文 参考訳(メタデータ) (2021-01-25T10:20:36Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z) - All-or-nothing statistical and computational phase transitions in sparse
spiked matrix estimation [35.035853993422506]
スパース方式で近似メッセージパッシングアルゴリズムを解析する。
最小誤差と平均二乗誤差の位相遷移がすべて存在する。
スパース体制では、スパース回復が近似メッセージパッシングに困難であることを示す統計的-アルゴリズム的ギャップが分岐する。
論文 参考訳(メタデータ) (2020-06-14T18:38:34Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。